摘要:我們的目標(biāo)是用爬蟲(chóng)來(lái)干一件略污事情最近聽(tīng)說(shuō)煎蛋上有好多可愛(ài)的妹子,而且爬蟲(chóng)從妹子圖抓起練手最好,畢竟動(dòng)力大嘛。服務(wù)器超載尤其是對(duì)給定服務(wù)器的訪(fǎng)問(wèn)過(guò)高時(shí)。個(gè)人爬蟲(chóng),如果過(guò)多的人使用,可能導(dǎo)致網(wǎng)絡(luò)或者服務(wù)器阻塞。
我們的目標(biāo)是用爬蟲(chóng)來(lái)干一件略污事情
最近聽(tīng)說(shuō)煎蛋上有好多可愛(ài)的妹子,而且爬蟲(chóng)從妹子圖抓起練手最好,畢竟動(dòng)力大嘛。而且現(xiàn)在網(wǎng)絡(luò)上的妹子很黃很暴力,一下接受太多容易營(yíng)養(yǎng)不量,但是本著有人身體就比較好的套路,特意分享下用點(diǎn)簡(jiǎn)單的技術(shù)去獲取資源。
以后如果有機(jī)會(huì),再給大家說(shuō)說(shuō)日本愛(ài)情動(dòng)(大)作(霧)片的種子搜索爬取,多多關(guān)注。
我們只準(zhǔn)備最簡(jiǎn)單的
python 2.7.11
Google Chrome
安裝的時(shí)候記得把pip帶上,這樣可以方便我們安裝一些好用的包,來(lái)方便我們干壞事(學(xué)習(xí))的過(guò)程。
需要用到的包
包括更佳符合人類(lèi)的HTTP庫(kù)--requests
用來(lái)解析html文件,快速提取我們需要的內(nèi)容--beautifulsoup4
也可以用下面的命令快速安裝
pip install requests
pip install beautifulsoup4
每天在互聯(lián)網(wǎng)上沖來(lái)沖去,瀏覽著大量的信息,觀看這各種鼻血噴發(fā)的圖片,于是作為新時(shí)代青年的我們,怎么能忍受被這些大量的垃圾信息充斥的互聯(lián)網(wǎng),我們要反抗,我們要下載!
請(qǐng),看,下,圖
↓
當(dāng)你在網(wǎng)上沖浪的時(shí)候遇到這樣的圖片,我就問(wèn)你:
虐不虐?虐死了!
下不下?下!
首先,我們需要定位我們需要的圖片
(點(diǎn)開(kāi)大圖很清晰)
根據(jù)我們之前的準(zhǔn)備的作案工具,使用chrome來(lái)訪(fǎng)問(wèn)網(wǎng)頁(yè)
http://jandan.net/ooxx
然后打開(kāi)開(kāi)發(fā)者工具菜單 -> 更多工具 -> 開(kāi)發(fā)者工具
看下圖右邊的神器
(圖都不點(diǎn)開(kāi)還學(xué)個(gè)毛線(xiàn))
點(diǎn)擊這個(gè)圖標(biāo)會(huì)出現(xiàn)塊選擇器,
鼠標(biāo)移動(dòng)我們感興趣的部分
(點(diǎn)開(kāi)大圖,你就看得見(jiàn)點(diǎn)哪里了)
按照?qǐng)D片指示點(diǎn)擊區(qū)域
(點(diǎn)開(kāi)大圖……我都懶得復(fù)述了)
右邊神器中就會(huì)出現(xiàn)我們所需要的img標(biāo)簽
(開(kāi),大,圖??瓶疲?/p>
查看之前最后一個(gè)以#comments開(kāi)頭的標(biāo)簽,
它包含了所有img的子標(biāo)簽。
打開(kāi)cmd或者終端
輸入python
輸入以下神秘代碼
現(xiàn)在偷偷看一下你的當(dāng)前目錄
是不是有很多(污)的圖片
網(wǎng)絡(luò)爬蟲(chóng)(又被稱(chēng)為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱(chēng)為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。
爬蟲(chóng)的使用對(duì)很多工作都是很有用的,但是對(duì)一般的社區(qū),也需要付出代價(jià)。使用爬蟲(chóng)的代價(jià)包括:
網(wǎng)絡(luò)資源:在很長(zhǎng)一段時(shí)間,爬蟲(chóng)使用相當(dāng)?shù)膸捀叨炔⑿械毓ぷ鳌?br>服務(wù)器超載:尤其是對(duì)給定服務(wù)器的訪(fǎng)問(wèn)過(guò)高時(shí)。
質(zhì)量糟糕的爬蟲(chóng),可能導(dǎo)致服務(wù)器或者路由器癱瘓,或者會(huì)嘗試下載自己無(wú)法處理的頁(yè)面。
個(gè)人爬蟲(chóng),如果過(guò)多的人使用,可能導(dǎo)致網(wǎng)絡(luò)或者服務(wù)器阻塞。
是不是還不夠
行蹤不定的下期預(yù)告
看著上面規(guī)整的排版——前后有序、圖文并茂,不就是練手爬蟲(chóng)技術(shù)最好的機(jī)會(huì)嗎?今天就到這里了,讀取下一頁(yè)什么的就靠你自己探索,我將會(huì)在下個(gè)系列給你一個(gè)參考方法,希望你持續(xù)關(guān)注。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/44517.html
摘要:探探機(jī)器人,自動(dòng)根據(jù)不同妹紙漢子顏值年齡等類(lèi)型,喜歡忽略,歡迎各位先看一下實(shí)現(xiàn)的結(jié)果吧今天要講的主題是使用腳本實(shí)現(xiàn)你自己想要自動(dòng)操控的任意手機(jī)。 前言 之前寫(xiě)了篇文章:【全是干貨】談?wù)勅绾螌W(xué)習(xí)一項(xiàng)新技能,沒(méi)有理論,全是實(shí)戰(zhàn),里面第五點(diǎn)提到用腳本玩探探,昨天花了一個(gè)小時(shí)實(shí)現(xiàn)了該功能。 Github:探探機(jī)器人,自動(dòng)根據(jù)不同妹紙/漢子顏值、年齡等類(lèi)型,喜歡、忽略,歡迎各位star 先看一下...
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:利用強(qiáng)大的語(yǔ)言制作屬于自己的第一張?jiān)~云。還有一件很有意思的事情,和的中文意思,都是蟒蛇。好,接下來(lái)進(jìn)入正題,一步一步實(shí)現(xiàn)我們的第一張?jiān)~云。但是我們?nèi)绻獙?duì)中文進(jìn)行分析,還必須要借助中文分詞技術(shù)。 相信很多人在網(wǎng)上,或者是在一些報(bào)告或者ppt上,都看到過(guò)類(lèi)似這種圖片 showImg(https://segmentfault.com/img/bVQRr0?w=1920&h=919); 你可...
閱讀 2390·2021-11-24 10:31
閱讀 3442·2021-11-23 09:51
閱讀 2254·2021-11-15 18:11
閱讀 2404·2021-09-02 15:15
閱讀 2465·2019-08-29 17:02
閱讀 2298·2019-08-29 15:04
閱讀 846·2019-08-29 12:27
閱讀 2870·2019-08-28 18:15