python爬取人臉識(shí)別圖片數(shù)據(jù)集/python爬去圖片/python爬蟲

cnio 發(fā)布于2019-07-30 15:36 / 1647人閱讀

摘要：本人長期出售超大量微博數(shù)據(jù)旅游網(wǎng)站評(píng)論數(shù)據(jù)，并提供各種指定數(shù)據(jù)爬取服務(wù)，。同時(shí)歡迎加入社交媒體數(shù)據(jù)交流群前言最近在做機(jī)器學(xué)習(xí)下的人臉識(shí)別的學(xué)習(xí)，機(jī)器學(xué)習(xí)這個(gè)東西有點(diǎn)暴力，很大程度上靠訓(xùn)練的數(shù)據(jù)量來決定效果。

本人長期出售超大量微博數(shù)據(jù)、旅游網(wǎng)站評(píng)論數(shù)據(jù)，并提供各種指定數(shù)據(jù)爬取服務(wù)，Message to [email protected]。同時(shí)歡迎加入社交媒體數(shù)據(jù)交流群：99918768

前言

最近在做機(jī)器學(xué)習(xí)下的人臉識(shí)別的學(xué)習(xí)，機(jī)器學(xué)習(xí)這個(gè)東西有點(diǎn)暴力，很大程度上靠訓(xùn)練的數(shù)據(jù)量來決定效果。為了找數(shù)據(jù)，通過一個(gè)博客的指導(dǎo)，瀏覽了幾個(gè)很知名的數(shù)據(jù)集。

幾個(gè)大型數(shù)據(jù)集是通過發(fā)郵件申請(qǐng)進(jìn)行下載，幾個(gè)小型數(shù)據(jù)集直接在網(wǎng)頁的鏈接下載，還有一個(gè)Pubfig數(shù)據(jù)集則是提供了大量圖片的鏈接來讓我們自己寫程序來下載。

權(quán)衡了數(shù)據(jù)量的需求，最后選擇Pubfig的數(shù)據(jù)集，于是就自己寫了一個(gè)python圖片采集程序，里面用了urllib和requests兩種方法.

分析Pubfig提供的下載文件的特點(diǎn)

這個(gè)數(shù)據(jù)文件提供了在數(shù)據(jù)集中出現(xiàn)的所有人物

這個(gè)數(shù)據(jù)文件提供了每個(gè)人的urls

可以看出來這個(gè)數(shù)據(jù)集的處理其實(shí)非常簡單了，可以通過readlines的方式存進(jìn)列表用空格分開一下數(shù)據(jù)就可以把urls提取出來了。

處理一下urls文件

urls在文件的中后部，寫個(gè)文件把它單純地提取出來，方便使用。
我多帶帶把Miley_Cyrus的部分提取出來放了一個(gè)txt文件

pic_url = []
with open("./Miley_Cyrus.txt") as f:
    for i in f.readlines():
        pic_url.append(i.strip("
"))

urls = []
for s in pic_url:
    _, _, _, url, _, _ = s.split()
    urls.append(url)

# 寫入到文件里面
with open("url.data", "w") as f:
    for i in urls:
        f.write(i)
        f.write("
")

爬取urls圖片 1. Urllibs方法

import urllib.request as request
import socket
import os


# 在同級(jí)目錄新建文件夾存圖片
os.mkdir("./img")


# 為請(qǐng)求增加一下頭
user_agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36"
headers = ("User-Agent", user_agent)
opener = request.build_opener()
opener.addheaders = [headers]
request.install_opener(opener)

# 設(shè)定一下無響應(yīng)時(shí)間，防止有的壞圖片長時(shí)間沒辦法下載下來
timeout = 20
socket.setdefaulttimeout(timeout)


# 從文件里面讀urls
urls = []
with open("./url.data") as f:
    for i in f.readlines():
        if i != "":
            urls.append(i)
        else:
            pass


# 通過urllibs的requests獲取所有的圖片
count = 1
bad_url = []
for url in urls:
    url.rstrip("
")
    print(url)
    try:
        pic = request.urlretrieve(url, "./img3/%d.jpg" % count)
        print("pic %d" % count)
        count += 1
    except Exception as e:
        print(Exception, ":", e)
        bad_url.append(url)
    print("
")
print("got all photos that can be got")


# 把沒有抓取到的urls保存起來
with open("bad_url3.data", "w") as f:
    for i in bad_url:
        f.write(i)
        f.write("
")
    print("saved bad urls")

2. Requests方法

import requests
import socket
import os


# 在同級(jí)目錄新建文件夾存圖片
os.mkdir("./img")


# 設(shè)定一下無響應(yīng)時(shí)間，防止有的壞圖片長時(shí)間沒辦法下載下來
timeout = 20
socket.setdefaulttimeout(timeout)


# 從文件里面讀urls
urls = []
with open("./url.data") as f:
    for i in f.readlines():
        if i != "":
            urls.append(i)
        else:
            pass


# 為請(qǐng)求增加一下頭，獲取圖片
user_agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36"
headers = {
    "User-Agent": user_agent
}
bad_url = []
count = 1
for url in urls:
    url.rstrip("
")
    print(url)
    try:
        pic = requests.get(url, headers=headers)
        with open("./img2/%d.jpg" % count, "wb") as f:
            f.write(pic.content)
            f.flush()
        print("pic %d" % count)
        count += 1
    except Exception as e:
        print(Exception, ":", e)
        bad_url.append(url)
    print("
")
print("got all photos that can be got")


# 保存壞鏈接
with open("bad_url.data", "w") as f:
    for i in bad_url:
        f.write(i)
        f.write("
")
    print("saved bad urls")

個(gè)人博客

8aoy1.cn

云服務(wù)器 GPU云服務(wù)器 python爬去圖片 python爬取網(wǎng)頁圖片 python爬蟲圖片 python爬蟲抓取圖片

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/41349.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

cnio

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

C/C++游戲項(xiàng)目詳細(xì)教程：《黃金礦工》

閱讀 1896·2021-11-11 16:55
Captura – 免費(fèi)錄屏軟件安裝體驗(yàn) 可選擇安裝版或便攜版

閱讀 2106·2021-10-08 10:13
html+css 實(shí)現(xiàn)導(dǎo)航欄文字居中

閱讀 755·2019-08-30 11:01
你不知道的CSS

閱讀 2166·2019-08-29 13:19
CSS 選擇器

閱讀 3293·2019-08-28 18:18
業(yè)務(wù)，程序員都是怎么做好的

閱讀 2631·2019-08-26 13:26
Javascript事件循環(huán)機(jī)制以及渲染引擎何時(shí)渲染UI

閱讀 588·2019-08-26 11:40
ES6—字符串模板引擎（4）

閱讀 1879·2019-08-23 17:17

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

python爬取人臉識(shí)別圖片數(shù)據(jù)集/python爬去圖片/python爬蟲

相關(guān)文章

爬蟲 - 收藏集 - 掘金

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Python從入門到轉(zhuǎn)行

**SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來做一些神奇好玩的事情吧**

發(fā)表評(píng)論

0條評(píng)論

cnio

男|高級(jí)講師

TA的文章

C/C++游戲項(xiàng)目詳細(xì)教程：《黃金礦工》

Captura – 免費(fèi)錄屏軟件安裝體驗(yàn) 可選擇安裝版或便攜版

html+css 實(shí)現(xiàn)導(dǎo)航欄文字居中

你不知道的CSS

CSS 選擇器

業(yè)務(wù)，程序員都是怎么做好的

Javascript事件循環(huán)機(jī)制以及渲染引擎何時(shí)渲染UI

ES6—字符串模板引擎（4）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

python爬取人臉識(shí)別圖片數(shù)據(jù)集/python爬去圖片/python爬蟲

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！