摘要:什么是爬蟲一段自動抓取互聯(lián)網(wǎng)信息的程序,從互聯(lián)網(wǎng)上抓取對于我們有價(jià)值的信息四種基本數(shù)據(jù)結(jié)構(gòu)列表列表中的每個(gè)元素都是可變的列表的元素都是有序的,也就是說每個(gè)元素都有對應(yīng)的位置列表可以容納所有的對象波波超哥小明波波超哥小明如果為切片返回的也是列
什么是爬蟲?
一段自動抓取互聯(lián)網(wǎng)信息的程序,從互聯(lián)網(wǎng)上抓取對于我們有價(jià)值的信息
Python四種基本數(shù)據(jù)結(jié)構(gòu)列表
**列表中的每個(gè)元素都是可變的;
列表的元素都是有序的,也就是說每個(gè)元素都有對應(yīng)的位置;
列表可以容納所有的對象;**
list = ["波波", "90", "超哥", "小明"] print(list[0]) print(list(2:)) # result 波波 ["超哥", "小明"] # 如果為切片返回的也是列表的數(shù)據(jù)結(jié)構(gòu)
字典
user_info = { "name": "小明", "age": "23", "sex": "male" }
元組
**在爬蟲中元組和集合很少用到,這里只做簡單的介紹;
元組: 類似于列表,但是元組的元素是不能修改只能查看的**
# 元組 tuple = (1,2,3)
集合
集合:類似數(shù)學(xué)中的集合,每個(gè)集合中的元素是無序的,不可以有重復(fù)的對象,因此可以通過集合把重復(fù)的數(shù)據(jù)去除!
# 集合 list = [1,1,2,2,3,4,5] set = set(list) # result {1,2,3,4,5}Python文件操作
# 打開文件 open(name,[, mode[,buffering]]) f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt") # 讀寫文件 f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt", "w") f.write("Hello World") f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt", "r") content = f.read() print(content) # result Hello World # 關(guān)閉文件 f.close()爬蟲原理 多頁面爬蟲流程 如何安裝Python環(huán)境?
Mac 系統(tǒng)自帶Python 2.7,安裝 新版本請前往官網(wǎng)下載,安裝成功之后,在命令行輸入python3 如圖:
工欲善其事,必先利其器推薦PyCharm
PyCharm破解方法拿走不謝!
Beautiful Soup 中文文檔
Scrapy 中文文檔
QuickDemo安裝Scrapy并創(chuàng)建項(xiàng)目
pip install scrapy scrapy startproject QuickDemo cd QuickDemo在spiders目錄下創(chuàng)建test_spilder.py文件
具體代碼(需要事先安裝BeautifulSoup庫)
# -*- coding:utf-8 -*- import scrapy from bs4 import BeautifulSoup class tsSpride(scrapy.Spider): name = "test" # 爬蟲的唯一名字,在項(xiàng)目中爬蟲名字一定不能重復(fù) # start_requests() 必須返回一個(gè)迭代的Request def start_requests(self): # 待爬取的URL列表 urls = ["http://www.jianshu.com/",] # 模擬瀏覽器 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"} for url in urls: yield scrapy.Request(url=url, headers=headers, callback=self.parse) # 處理每個(gè)請求的下載響應(yīng) def parse(self, response): soup = BeautifulSoup(response.body, "html.parser") titles = soup.find_all("a", "title") for title in titles: print(title.string) try: file = open(r"/Users/GreetingText/QuickDemo/jianshu.txt", "w") # 將爬取到的文章題目寫入txt中 for title in titles: file.write(title.string + " ") finally: if file: # 關(guān)閉文件(很重要) file.close()在命令行輸入
scrapy crawl test爬取數(shù)據(jù)成功如圖: 而且項(xiàng)目里面也生成了一個(gè)jianshu.txt文件 打開jianshu.txt如圖: 以下是參考鏈接
本文參考文章
BeautifulSoup官網(wǎng)
Scrapy官網(wǎng)
windows安裝Python3
Mac安裝Python3
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41829.html
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...
摘要:以下這些項(xiàng)目,你拿來學(xué)習(xí)學(xué)習(xí)練練手。當(dāng)你每個(gè)步驟都能做到很優(yōu)秀的時(shí)候,你應(yīng)該考慮如何組合這四個(gè)步驟,使你的爬蟲達(dá)到效率最高,也就是所謂的爬蟲策略問題,爬蟲策略學(xué)習(xí)不是一朝一夕的事情,建議多看看一些比較優(yōu)秀的爬蟲的設(shè)計(jì)方案,比如說。 (一)如何學(xué)習(xí)Python 學(xué)習(xí)Python大致可以分為以下幾個(gè)階段: 1.剛上手的時(shí)候肯定是先過一遍Python最基本的知識,比如說:變量、數(shù)據(jù)結(jié)構(gòu)、語法...
摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:想辦法區(qū)分爬蟲程序和正常的用戶。爬蟲是工具性程序,對速度和效率要求較高。生態(tài)圈完善,是最大對手。最要命的是爬蟲需要經(jīng)常修改部分代碼。爬蟲分類通用爬蟲也就是百度搜狐等搜索引擎。原本是為測試來測試網(wǎng)站的,后來成了爬蟲工程師最喜愛的工具。 一、爬蟲的基本知識: 1. 什么是爬蟲 爬蟲的英文翻譯為spider或者crawder,意為蜘蛛或者爬行者,從字面意思我們可以體會到:爬蟲就是把自己當(dāng)做蜘...
摘要:目錄基于的爬蟲入門環(huán)境搭建基于的爬蟲入門頁面提取基于的爬蟲入門圖片處理下面創(chuàng)建一個(gè)爬蟲項(xiàng)目,以圖蟲網(wǎng)為例抓取圖片。 目錄 基于 Python 的 Scrapy 爬蟲入門:環(huán)境搭建 基于 Python 的 Scrapy 爬蟲入門:頁面提取 基于 Python 的 Scrapy 爬蟲入門:圖片處理 下面創(chuàng)建一個(gè)爬蟲項(xiàng)目,以圖蟲網(wǎng)為例抓取圖片。 一、內(nèi)容分析 打開 圖蟲網(wǎng),頂部菜單發(fā)現(xiàn)...
摘要:快速入門首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因?yàn)楣卷?xiàng)目需求,需要做一個(gè)爬蟲。所以我一個(gè)python小白就被拉去做了爬蟲?;藘芍軙r(shí)間,拼拼湊湊總算趕出來了。所以寫個(gè)blog做個(gè)記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過...
閱讀 1251·2021-10-11 10:59
閱讀 2015·2021-09-29 09:44
閱讀 935·2021-09-01 10:32
閱讀 1479·2019-08-30 14:21
閱讀 1917·2019-08-29 15:39
閱讀 3020·2019-08-29 13:45
閱讀 3578·2019-08-29 13:27
閱讀 2047·2019-08-29 12:27