成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

網(wǎng)站信息采集

AZmake / 1939人閱讀

摘要:網(wǎng)站信息采集在編寫爬蟲之前可能需要先了解和搜集網(wǎng)站信息協(xié)議也稱為爬蟲協(xié)議機(jī)器人協(xié)議等的全稱是網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn),網(wǎng)站通過協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

網(wǎng)站信息采集

在編寫爬蟲之前可能需要先了解和搜集網(wǎng)站信息

robots.txt
Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。一般的網(wǎng)站都會(huì)有這個(gè)文件??梢源笾铝私膺@個(gè)網(wǎng)站存在哪些限制

下面是知乎的robots.txt,可以通過https://www.zhihu.com/robots....

# 禁止今日頭條和悟空問答爬蟲抓取知乎網(wǎng)站內(nèi)容
User-agent: *
Request-rate: 1/2 # load 1 page per 2 seconds
Crawl-delay: 10

Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*
Disallow: /people/*

其中User-agent說明了對哪些用戶代理的限制,*表示限制所有的爬蟲,還設(shè)置了請求速率 每兩秒訪問一個(gè)頁面,還設(shè)置了Crawl-delay,10秒的抓取延時(shí),為了知乎的服務(wù)器不過載,我們最好遵循一下????后面的Disallow則限制了訪問的路徑

用site:example.com估計(jì)網(wǎng)站的大小

你想抓取信息的網(wǎng)站有九成是被百度或者Google訪問過的,通過這條命令可以快速的了解網(wǎng)站的大小,以便在設(shè)計(jì)爬蟲的時(shí)候選擇合適的方案

識(shí)別網(wǎng)站所用的技術(shù)

安裝builtwith模塊

pip install builtwith

使用方式

import builtwith as bw
res = bw.parse("https://www.zhihu.com/")
print(res)
# {"javascript-frameworks": ["React", "RequireJS"]}
res = bw.parse("https://www.upc.edu.cn/")
print(res)
# {"font-scripts": ["Font Awesome"], "javascript-frameworks": ["jQuery"]}
res = bw.parse("http://example.webscraping.com")
print(res)
#{"web-servers": ["Nginx"], "web-frameworks": ["Web2py", "Twitter Bootstrap"], "programming-languages": ["Python"], "javascript-frameworks": ["jQuery", "Modernizr", "jQuery UI"]}

可以得知知乎使用的是React框架,還能知道網(wǎng)站用什么語言開發(fā)的,服務(wù)器類型等等

個(gè)人爬蟲經(jīng)驗(yàn)收集地址

https://github.com/No-96/Feng...

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41308.html

相關(guān)文章

  • 一步一步教你如何搭建自己的視頻聚合站

    摘要:不過因?yàn)楦鱾€(gè)平臺(tái)互相挖人的關(guān)系,導(dǎo)致關(guān)注的一些主播分散到了各個(gè)直播平臺(tái),來回切換有點(diǎn)麻煩,所以萌生了做一個(gè)視頻聚合站的想法。后續(xù)我們會(huì)對這三個(gè)部分的功能做逐一展開說明。正則處理要求比較高,但是幾乎能應(yīng)對所有的情況,屬于大殺器。 前言 作為一個(gè)爐石傳說玩家,經(jīng)常有事沒事開著直播網(wǎng)站看看大神們的精彩表演。不過因?yàn)楦鱾€(gè)平臺(tái)互相挖人的關(guān)系,導(dǎo)致關(guān)注的一些主播分散到了各個(gè)直播平臺(tái),來回切換有點(diǎn)麻...

    justjavac 評論0 收藏0
  • web 埋點(diǎn)實(shí)現(xiàn)原理了解一下

    摘要:前言埋點(diǎn),是網(wǎng)站分析的一種常用的數(shù)據(jù)采集方法。缺點(diǎn)是流量和采集的數(shù)據(jù)過于龐大,服務(wù)器性能壓力山大,主流的就是這種實(shí)現(xiàn)方案。我們暫時(shí)放棄可視化埋點(diǎn)的實(shí)現(xiàn),在手動(dòng)埋點(diǎn)和無埋點(diǎn)上進(jìn)行了嘗試,為了便于描述,下文我會(huì)稱采集腳本為。 前言 埋點(diǎn),是網(wǎng)站分析的一種常用的數(shù)據(jù)采集方法。我們主要用來采集用戶行為數(shù)據(jù)(例如頁面訪問路徑,點(diǎn)擊了什么元素)進(jìn)行數(shù)據(jù)分析,從而讓運(yùn)營同學(xué)更加合理的安排運(yùn)營計(jì)劃?,F(xiàn)...

    MASAILA 評論0 收藏0
  • 高效采集數(shù)據(jù)的背后都有一個(gè)DTM

    摘要:結(jié)論在本文中,我們學(xué)習(xí)了如何通過華為動(dòng)態(tài)標(biāo)簽管理高效采集應(yīng)用數(shù)據(jù),驅(qū)動(dòng)業(yè)務(wù)增長,我們還可以通過優(yōu)化廣告投放效果進(jìn)行反欺詐分析等,以最大程度地提高營銷人員的工作效率。 華為動(dòng)態(tài)標(biāo)簽管理(Dynamic Tag Manager,以下簡稱DTM),是一個(gè)動(dòng)態(tài)標(biāo)簽代碼管理系統(tǒng)(Tag Manager System),我...

    lemon 評論0 收藏0
  • 前端到底是求職者的樂土還是日漸成為燙手的山芋?

    摘要:前端技術(shù)是近年來一個(gè)新興職業(yè),是伴隨著興起而細(xì)分進(jìn)去的行業(yè)。數(shù)據(jù)采集結(jié)果采集到前端工程師崗位招聘信息原始數(shù)據(jù)共萬多條,考慮到時(shí)效性和真實(shí)性,最終篩選出條信息作為報(bào)告分析對象。所以說前端工作還是很好找的。 showImg(https://segmentfault.com/img/bVbeN9h?w=580&h=435);web前端技術(shù)是近年來一個(gè)新興職業(yè),是伴隨著web興起而細(xì)分進(jìn)去的行...

    hufeng 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<