成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

用python爬取 20w 表情包之后,感嘆我族人是多么強大!

Sike / 1716人閱讀

摘要:是這樣的有一次想要斗圖配圖就在網(wǎng)上搜索表情包然后發(fā)現(xiàn)了一個表情巨多的網(wǎng)站不小心動起了邪念產(chǎn)生了興趣那就把它們存下來吧用請求了一下發(fā)現(xiàn)這個網(wǎng)站沒有做反爬發(fā)現(xiàn)這里有的頁面簡單的切換一下頁面可以發(fā)現(xiàn)第一頁的鏈接是這樣的所以以此類推構(gòu)建一下所有這樣

是這樣的

有一次想要斗圖

配圖

就在網(wǎng)上搜索表情包

然后發(fā)現(xiàn)了一個表情巨多的網(wǎng)站

不小心動起了邪念

產(chǎn)生了興趣

那就

把它們存下來吧

用 requests 請求了一下

發(fā)現(xiàn)這個網(wǎng)站沒有做反爬

發(fā)現(xiàn)這里有 4k+ 的頁面

簡單的切換一下頁面

可以發(fā)現(xiàn)

第一頁的鏈接是這樣的

https://fabiaoqing.com/biaoqi...

所以以此類推

構(gòu)建一下所有url

_url = "https://fabiaoqing.com/biaoqing/lists/page/{page}.html"

這樣我們就可以得到所有表情包的鏈接了

我們來看一下頁面里面的信息

在這里

我們只需要圖片的地址和圖片的名稱即可

所以我們只要獲取到每個頁面的

所有 img 標簽就可以了

可以使用??BeautifulSoup?根據(jù)類名獲取

response = requests.get(url)

拿到了頁面里面的所有 img

那么就可以獲取每個圖片的地址和名稱

從而下載到我們想要的位置

  for img in img_list:

至此

幾行代碼就搞定了
大家在學python的時候肯定會遇到很多難題,以及對于新技術(shù)的追求,這里推薦一下我們的Python學習扣qun:784,758,214,這里是python學習者聚集地!
先來測試一下

下載一個頁面的圖片

可以發(fā)現(xiàn)

每張圖片都獲取到了

效果還行

不過

要下載那么多張表情包的話

這樣寫的代碼有點慢了

還是開啟多線程吧

對于這種 IO 操作

還是能加快不少下載時間的

 queue = Queue()

在這里創(chuàng)建了?DownloadBiaoqingbao 這個線程類

然后創(chuàng)建 10 個線程

把 url 添加到隊列中

來運行一下

這時候文件夾就寫入表情包啦

經(jīng)過一段時間

小帥b的文件夾就存滿了各種表情包了哈哈哈

誰敢跟我斗圖

我就砸死他

不過呢

有個問題

文件夾里面的圖片太多了

需要檢索一下才行

比如我們要找到關(guān)于

小老弟

的表情包

那么我們可以使用?

glob

import glob
for name in glob.glob("/home/wistbean/biaoqingbao/*小老弟*.*"):
    print(name)

通過 * 這個符號進行模糊匹配

運行一下可以得到所有含有“小老弟”的表情包

到這里

已經(jīng)有了大量的表情包

也可以通過關(guān)鍵詞檢索到表情包了

那么如何進一步用到微信來呢

嘿嘿,我得意的笑

開下腦洞

我們使用微信的接口和 python 對接一下

比如

我發(fā)送給我的微信說

我要關(guān)于沙雕的表情包,發(fā) 6 張來

這個時候

python接收到指令

然后就去檢索表情包

發(fā)送回我的微信

可以使用 itchat 這個模塊

使用網(wǎng)頁版微信的方式登錄

itchat.auto_login(hotReload=True)
itchat.run()

運行這段代碼可以得到二維碼

掃一下就可以登錄進去操作微信了

接著就可以根據(jù)小帥b發(fā)送過來的關(guān)鍵詞

進行文件搜索

imgs = []

def searchImage(text):
    print("收到關(guān)鍵詞: ", text)
    for name in glob.glob("/home/wistbean/biaoqingbao/*"+text+"*.jpg"):
        imgs.append(name)
大家在學python的時候肯定會遇到很多難題,以及對于新技術(shù)的追求,這里推薦一下我們的Python學習扣qun:784758214,這里是python學習者聚集地!

然后就可以在回復(fù)微信的時候發(fā)送圖片給自己了

在這里就給自己發(fā)前 6 張圖片吧

@itchat.msg_register([PICTURE, TEXT])
def text_reply(msg):
    searchImage(msg.text)
    for img in imgs[:6]:
        msg.user.send_image(img)
        time.sleep(0.3)
        print("開始發(fā)送表情:", img)
    imgs.clear()

但這里有個問題

就是 itchat 在發(fā)送圖片的時候

中文名的文件發(fā)了沒有反應(yīng)

后來小帥b發(fā)現(xiàn)是 requests 庫的問題

修改它的 fields.py

value = email.utils.encode_rfc2231(value, "utf-8")
    # value = "%s*=%s" % (name, value)
    value = "%s="%s"" % (name, value.encode("utf-8"))

也就是將

value = "%s*=%s" % (name, value)

改成

value = "%s="%s"" % (name, value.encode("utf-8"))

ok

搞定

ok

以上

當然還可以優(yōu)化一下

比如每次加載更多同類型的表情包

將表情包發(fā)送給特定的人等等

自己去玩吧

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/43883.html

相關(guān)文章

  • 【程序人生】做了低薪運營6年,妹紙靠什么轉(zhuǎn)行拿下 20W 年薪?

    摘要:因當時項目組人手嚴重不足,故兼做部分功能測試的工作。年下半年,我的工作職能發(fā)生了調(diào)整,不再跟進系統(tǒng)相關(guān),工作職能偏向文職,無法有更大的進步空間。后來從網(wǎng)上了解到自動化測試,去年下半年也開始通過視頻學習自動化測試相關(guān),決心轉(zhuǎn)行做自動化測試。 本人大學專業(yè)非計算機相關(guān),畢業(yè)六年一直從事運營相關(guān)工...

    時飛 評論0 收藏0
  • 【微信小程序爬蟲】表情小程序圖文視頻教學,從零寫起,保姆教程!?。?/b>

    摘要:文章目錄前言爬取分析視頻教學成果展示福利入門到就業(yè)學習路線規(guī)劃小白快速入門爬蟲路線前言皮皮蝦一個沙雕而又有趣的憨憨少年,和大多數(shù)小伙伴們一樣喜歡聽歌游戲,當然除此之外還有寫作的興趣,,日子還很長,讓我們一起加油努力叭話 ...

    coordinate35 評論0 收藏0
  • 海航生態(tài)科技輿情大數(shù)據(jù)平臺容器化改造

    摘要:本文轉(zhuǎn)載自微信公眾號賬號,作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗,包括初期技術(shù)架構(gòu)應(yīng)用容器化架構(gòu)遷移持續(xù)發(fā)布與部署。 本文轉(zhuǎn)載自微信公眾號Docker(賬號:dockerone),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。 文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗,包括初期技術(shù)架構(gòu)、應(yīng)用容器化、架構(gòu)遷...

    idealcn 評論0 收藏0
  • JavaSE小實踐1:Java爬取斗圖網(wǎng)站的所有表情

    摘要:今天我就用爬取了一個斗圖網(wǎng)站上的所有表情包,用來充實自己的表情包庫。下載完所有圖片,總共有思路主要通過解析頁面的源代碼來獲取圖片的地址,然后通過圖片地址下載圖片到本地,所以要學會使用瀏覽器進行分析。 跟朋友聊天總會用到大量表情包,有些人甚至專門收集各種各樣的表情包,看看誰能打敗誰。今天我就用java爬取了一個斗圖網(wǎng)站上的所有表情包,用來充實自己的表情包庫。代碼邏輯有可能并不完美,哈哈,...

    yuanxin 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<