成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

<ul id="s2yai"></ul>

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

立即前往

首頁(yè)/文章專(zhuān)欄/第一個(gè)網(wǎng)絡(luò)爬蟲(chóng)-抓取CodeSnippet代碼片段

第一個(gè)網(wǎng)絡(luò)爬蟲(chóng)-抓取CodeSnippet代碼片段

xcold 發(fā)布于2019-07-25 11:16 / 1248人閱讀

摘要：抓取代碼片段目標(biāo)抓取中的代碼片段分析代碼分享你的世界代碼塊發(fā)布代碼片段片段列表一個(gè)線程如果是個(gè)人英雄主義，那么多線程就是集體主義，你不再是一個(gè)獨(dú)行俠，而是一個(gè)指揮家。

CodeSnippet 抓取代碼片段 目標(biāo)

抓取CodeSnippet中的代碼片段

分析

代碼


    
        
            
                
                    
                
                
                                        
                    
                 
                
                    
                        發(fā)布代碼片段
                        片段列表 
                    
                    

                
                
                    一個(gè)線程如果是個(gè)人英雄主義，那么多線程就是集體主義，你不再是一個(gè)獨(dú)行俠，而是一個(gè)指揮家。
                
                
                    
                        共有 {15106} 個(gè)代碼片段 
                      
                 
                
                    京ICP備13038605號(hào)

我們想要抓取的內(nèi)容在為 li class="con-code bbor" 所以 BeautifulSoup find()方法獲取到該標(biāo)簽然后獲取其文本內(nèi)容

準(zhǔn)備

準(zhǔn)備我們爬蟲(chóng)比用的兩個(gè)模塊

from urllib2 import urlopen

from bs4 import BeautifulSoup

編寫(xiě)抓取代碼

# 抓取http://www.codesnippet.cn/index.html 中的代碼片段

def GrapIndex():
    html = "http://www.codesnippet.cn/index.html"
    bsObj = BeautifulSoup(urlopen(html), "html.parser")
    return bsObj.find("li",  {"class":"con-code bbor"}).get_text()

當(dāng)我們抓取到我們想要的數(shù)據(jù)之后接下來(lái)要做的就是把數(shù)據(jù)寫(xiě)到數(shù)據(jù)庫(kù)里，由于我們現(xiàn)在抓取數(shù)據(jù)簡(jiǎn)單，所以只寫(xiě)文件即可！

def SaveResult():
    codeFile=open("code.txt", "a") # 追加
    for list in GrapIndex():
        codeFile.write(list)
    codeFile.close()

當(dāng)我們?cè)趯?xiě)文件的時(shí)候出現(xiàn)了以下錯(cuò)誤，而下面這個(gè)錯(cuò)誤的造成原因則是由于python2.7是基于ascii去處理字符流，當(dāng)字符流不屬于ascii范圍內(nèi)，就會(huì)拋出異常（ordinal not in range(128)）

UnicodeEncodeError: "ascii" codec can"t encode character u"u751f" in position 0: ordinal not in range(128)

分析

python2.7是基于ascii去處理字符流，當(dāng)字符流不屬于ascii范圍內(nèi)，就會(huì)拋出異常（ordinal not in range(128)）

解決辦法

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

完整代碼展示

from urllib2 import urlopen

from bs4 import BeautifulSoup

import os
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

def GrapIndex():
    html = "http://www.codesnippet.cn/index.html"
    bsObj = BeautifulSoup(urlopen(html), "html.parser")
    return bsObj.find("li",  {"class":"con-code bbor"}).get_text()

def SaveResult():
    codeFile=open("code.txt", "a")
    for list in GrapIndex():
        codeFile.write(list)
    codeFile.close()

if __name__ == "__main__":
    for i in range(0,9):
        SaveResult()

云服務(wù)器 GPU云服務(wù)器網(wǎng)絡(luò)爬蟲(chóng)抓取代碼片段添加代碼片段 Python代碼片段

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/38298.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

xcold

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

【LeetCode 二叉樹(shù)專(zhuān)項(xiàng)】把二叉搜索樹(shù)轉(zhuǎn)換為累加樹(shù)（538）

閱讀 3266·2021-11-18 10:02
UCloud金秋狂歡盛典-烏蘭察布上新首促，快杰共享型低至3元/1個(gè)月或37元/年-老劉博客

閱讀 1469·2021-10-12 10:08
Docker安裝InfluxDB_用戶名密碼和策略使用

閱讀 1271·2021-10-11 10:58
安裝鴻蒙開(kāi)發(fā)工具-DevEco Studio

閱讀 1285·2021-10-11 10:57
golang實(shí)現(xiàn)儀表控制-visa32.dll方式

閱讀 1183·2021-10-08 10:04
【C++從0到1】新手都能看懂的C++入門(mén)（上篇），建議收藏

閱讀 2138·2021-09-29 09:35
彈性云主機(jī)是什么原因-電信云主機(jī)是什么？

閱讀 787·2021-09-22 15:44
微軟宣布將于 9 月 22 日舉行 Surface 和 Windows 11 活動(dòng)

閱讀 1284·2021-09-03 10:30

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

第一個(gè)網(wǎng)絡(luò)爬蟲(chóng)-抓取CodeSnippet代碼片段

相關(guān)文章

從0-1打造最強(qiáng)性能Scrapy爬蟲(chóng)集群

**基于 Electron 的爬蟲(chóng)框架 Nightmare**

爬蟲(chóng)入門(mén)

爬蟲(chóng)入門(mén)

發(fā)表評(píng)論

0條評(píng)論

xcold

男|高級(jí)講師

TA的文章

【LeetCode 二叉樹(shù)專(zhuān)項(xiàng)】把二叉搜索樹(shù)轉(zhuǎn)換為累加樹(shù)（538）

UCloud金秋狂歡盛典-烏蘭察布上新首促，快杰共享型低至3元/1個(gè)月或37元/年-老劉博客

Docker安裝InfluxDB_用戶名密碼和策略使用

安裝鴻蒙開(kāi)發(fā)工具-DevEco Studio

golang實(shí)現(xiàn)儀表控制-visa32.dll方式

【C++從0到1】新手都能看懂的C++入門(mén)（上篇），建議收藏

彈性云主機(jī)是什么原因-電信云主機(jī)是什么？

微軟宣布將于 9 月 22 日舉行 Surface 和 Windows 11 活動(dòng)

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

第一個(gè)網(wǎng)絡(luò)爬蟲(chóng)-抓取CodeSnippet代碼片段

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！