Python爬蟲入門

xbynet 發(fā)布于2019-07-30 16:47 / 1982人閱讀

摘要：什么是爬蟲一段自動抓取互聯(lián)網(wǎng)信息的程序，從互聯(lián)網(wǎng)上抓取對于我們有價(jià)值的信息四種基本數(shù)據(jù)結(jié)構(gòu)列表列表中的每個(gè)元素都是可變的列表的元素都是有序的，也就是說每個(gè)元素都有對應(yīng)的位置列表可以容納所有的對象波波超哥小明波波超哥小明如果為切片返回的也是列

什么是爬蟲？

一段自動抓取互聯(lián)網(wǎng)信息的程序，從互聯(lián)網(wǎng)上抓取對于我們有價(jià)值的信息

Python四種基本數(shù)據(jù)結(jié)構(gòu)

列表

**列表中的每個(gè)元素都是可變的;
列表的元素都是有序的，也就是說每個(gè)元素都有對應(yīng)的位置;
列表可以容納所有的對象;**

list = ["波波", "90", "超哥", "小明"]
print(list[0])
print(list(2:))
# result
波波
["超哥", "小明"] # 如果為切片返回的也是列表的數(shù)據(jù)結(jié)構(gòu)

字典

user_info = {
  "name": "小明",
  "age": "23",
  "sex": "male"
}

元組

**在爬蟲中元組和集合很少用到，這里只做簡單的介紹;
元組: 類似于列表，但是元組的元素是不能修改只能查看的**

# 元組
tuple = (1,2,3)

集合

集合：類似數(shù)學(xué)中的集合，每個(gè)集合中的元素是無序的，不可以有重復(fù)的對象，因此可以通過集合把重復(fù)的數(shù)據(jù)去除!

# 集合
list = [1,1,2,2,3,4,5] 
set = set(list)
# result {1,2,3,4,5}

Python文件操作

# 打開文件
open(name,[, mode[,buffering]])

f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt")

# 讀寫文件

f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt", "w")
f.write("Hello World")

f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt", "r")
content = f.read()
print(content)
# result Hello World

# 關(guān)閉文件
f.close()

爬蟲原理

多頁面爬蟲流程

如何安裝Python環(huán)境？

Mac 系統(tǒng)自帶Python 2.7，安裝新版本請前往官網(wǎng)下載，安裝成功之后，在命令行輸入python3 如圖：

工欲善其事，必先利其器

推薦PyCharm

PyCharm破解方法拿走不謝！

推薦兩個(gè)第三方庫

Beautiful Soup 中文文檔

Scrapy 中文文檔

QuickDemo

安裝Scrapy并創(chuàng)建項(xiàng)目

pip install scrapy
scrapy startproject QuickDemo
cd QuickDemo

在spiders目錄下創(chuàng)建test_spilder.py文件

具體代碼(需要事先安裝BeautifulSoup庫)

# -*- coding:utf-8 -*-
import scrapy
from bs4 import BeautifulSoup


class tsSpride(scrapy.Spider):
    name = "test" # 爬蟲的唯一名字，在項(xiàng)目中爬蟲名字一定不能重復(fù)

    # start_requests() 必須返回一個(gè)迭代的Request
    def start_requests(self):
        # 待爬取的URL列表
        urls = ["http://www.jianshu.com/",]
        # 模擬瀏覽器
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
        for url in urls:
            yield scrapy.Request(url=url, headers=headers, callback=self.parse)

    # 處理每個(gè)請求的下載響應(yīng)
    def parse(self, response):
        soup = BeautifulSoup(response.body, "html.parser")
        titles = soup.find_all("a", "title")
        for title in titles:
            print(title.string)

        try:
            file = open(r"/Users/GreetingText/QuickDemo/jianshu.txt", "w")
            # 將爬取到的文章題目寫入txt中
            for title in titles:
                file.write(title.string + "
")
        finally:
            if file:
                # 關(guān)閉文件（很重要）
                file.close()

在命令行輸入

scrapy crawl test

爬取數(shù)據(jù)成功如圖：

而且項(xiàng)目里面也生成了一個(gè)jianshu.txt文件

打開jianshu.txt如圖:

以下是參考鏈接

本文參考文章

BeautifulSoup官網(wǎng)

Scrapy官網(wǎng)

windows安裝Python3

Mac安裝Python3

GPU云服務(wù)器云服務(wù)器 python入門爬蟲 python爬蟲入門 python網(wǎng)絡(luò)爬蟲入門 python爬蟲教程入門

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/41829.html

發(fā)表評論

登陸后可評論

0條評論

xbynet

男|高級講師

我要關(guān)注我要私信

TA的文章

將 exe 文件反編譯成 Python 腳本

閱讀 1251·2021-10-11 10:59
RepriseHosting：$27.97/月-L5640,16G內(nèi)存,1TB硬盤,10TB月流量,

閱讀 2015·2021-09-29 09:44
半導(dǎo)體芯片測試機(jī)供不應(yīng)求，超 15 家國產(chǎn)廠商積極入局

閱讀 935·2021-09-01 10:32
【基礎(chǔ)知識】Flex-彈性布局原來如此簡單??！

閱讀 1479·2019-08-30 14:21
Font Boosting

閱讀 1917·2019-08-29 15:39
簡單說通過CSS實(shí)現(xiàn) 文字漸變色的兩種方式

閱讀 3020·2019-08-29 13:45
關(guān)于BEM的反思

閱讀 3578·2019-08-29 13:27
WebUploader上傳插件使用說明

閱讀 2047·2019-08-29 12:27

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲入門

相關(guān)文章

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

Python爬蟲學(xué)習(xí)路線

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客