摘要:日前,谷歌發(fā)布開發(fā)圖片數(shù)據(jù)集的版,比起今年月份發(fā)布的版,這一版本的邊框數(shù)和圖像層級(jí)標(biāo)簽數(shù)都大大增加。大部分的人工驗(yàn)證都已經(jīng)在谷歌內(nèi)部手工完成了,另外一小部分是通過(guò)在上進(jìn)行眾包驗(yàn)證來(lái)完成的。
日前,谷歌發(fā)布 Open Images Dataset (開發(fā)圖片數(shù)據(jù)集)的 V3 版,比起今年7月份發(fā)布的 V2 版,這一版本的邊框(bounding box)數(shù)和圖像層級(jí)標(biāo)簽(image-level label)數(shù)都大大增加。
圖: Open Images Dataset 中的標(biāo)注圖像
Open Images Dataset 包含900萬(wàn)張圖片 URL,里面的圖片都已經(jīng)被標(biāo)注,帶有標(biāo)簽和邊框,橫跨成千上萬(wàn)個(gè)類。大家現(xiàn)在可以到 https://github.com/cvdfoundation/open-images-dataset 進(jìn)行下載。
該數(shù)據(jù)集包括一個(gè)訓(xùn)練集(9,011,219張圖像)、一個(gè)驗(yàn)證集(41,620張圖像)和一個(gè)測(cè)試集(125,436張圖像)。在 V2 版本中, V1 版本的驗(yàn)證集被分割成驗(yàn)證集和測(cè)試集,這是為了更易于評(píng)估。圖像的標(biāo)簽和邊框描述如下:
圖像層級(jí)標(biāo)簽
下表是不同數(shù)據(jù)集中圖像層級(jí)標(biāo)簽的概況,可以通過(guò)類似于 Google Cloud Vision API 的計(jì)算機(jī)視覺模型自動(dòng)生成所有圖片的圖像層級(jí)標(biāo)簽。
驗(yàn)證集和測(cè)試集中的所有圖像,以及訓(xùn)練集中的一部分圖像都帶有經(jīng)過(guò)人工驗(yàn)證的圖像層級(jí)標(biāo)簽。大部分的人工驗(yàn)證都已經(jīng)在谷歌內(nèi)部手工完成了,另外一小部分是通過(guò)在Image Labeler(Crowdsource app, g.co/imagelabeler)上進(jìn)行眾包驗(yàn)證來(lái)完成的。這種人工驗(yàn)證雖然可以消除掉錯(cuò)誤信息,但卻不能發(fā)現(xiàn)漏報(bào)情況,所以圖像中可能會(huì)缺失某些標(biāo)簽。產(chǎn)生樣本的模型不只是上面提到的自動(dòng)生成標(biāo)簽的模型,還覆蓋其他很多計(jì)算機(jī)視覺模型,所以類的數(shù)量大大增加了。
在數(shù)據(jù)集中,共有19,995個(gè)帶有圖像層級(jí)標(biāo)簽的不同的類,其中19,693個(gè)類中至少有一個(gè)經(jīng)過(guò)人類驗(yàn)證的標(biāo)簽,7870個(gè)類中帶有機(jī)器生成的標(biāo)簽。
邊框
下表是在所有數(shù)據(jù)集中邊框標(biāo)記的概況,其中包括600個(gè)對(duì)象類。這個(gè)數(shù)量遠(yuǎn)遠(yuǎn)大于在 ILSVRC 和 COCO 挑戰(zhàn)賽中涵蓋的類,另外還增加了諸如 fedora 帽和雪人等新的對(duì)象。
Google 為驗(yàn)證集和測(cè)試集中的所有對(duì)象實(shí)例提供完整的邊界框注釋,這些都是在公司內(nèi)部通過(guò)手工標(biāo)記的。此外,他們還盡可能地嘗試在語(yǔ)義層次(semantic hierarchy)上將邊框標(biāo)記得足夠具體。
例如,汽車有兩輛,一輛是兒童豪華轎車,一輛是貨車。豪華轎車(limousine)和貨車(van)被標(biāo)記為limousine和van,而所有其他類型的汽車(car)被標(biāo)記為汽車(car)。
此外,注解者還為每個(gè)邊框標(biāo)記了一組屬性,例如指示對(duì)象是否被遮擋。驗(yàn)證集和測(cè)試集中的每個(gè)圖像平均大約有5個(gè)邊框。
Data Formats數(shù)據(jù)格式
數(shù)據(jù)原始碼包含如下文件:
images.csv
在訓(xùn)練集、驗(yàn)證集和測(cè)試集中的每個(gè)子集中都會(huì)有這樣的文件。這里面包含圖片URL、OpenImage ID、標(biāo)題、作者和許可信息:
ImageID,Subset,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title,
OriginalSize,OriginalMD5,Thumbnail300KURL
...
000060e3121c7305,train,https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg,
https://www.flickr.com/photos/brokentaco/5215831864,
https://creativecommons.org/licenses/by/2.0/,
"https://www.flickr.com/people/brokentaco/","David","28 Nov 2010 Our new house."
211079,0Sad+xMj2ttXM1U8meEJ0A==,https://c1.staticflickr.com/5/4129/5215831864_ee4e8c6535_z.jpg
...
每個(gè)圖片中都有一個(gè)惟一的64位指定 ID,在 CSV 文件中,它們顯示成十六進(jìn)制整數(shù)(用零填充),例如000060e3121c7305。
annotations-machine.csv
這是通過(guò)機(jī)器生成的圖像層級(jí)標(biāo)簽(每個(gè)訓(xùn)練集、驗(yàn)證集和測(cè)試集中都有)。
ImageID,Source,LabelName,Confidence
000002b66c9c498e,machine,/m/05_4_,0.7
000002b66c9c498e,machine,/m/0krfg,0.7
000002b66c9c498e,machine,/m/01kcnl,0.5
000002b97e5471a0,machine,/m/05_5t0l,0.9
000002b97e5471a0,machine,/m/0cgh4,0.8
000002b97e5471a0,machine,/m/0dx1j,0.8
000002b97e5471a0,machine,/m/039jbq,0.8
000002b97e5471a0,machine,/m/03nfmq,0.8
000002b97e5471a0,machine,/m/03jm5,0.7
...
這些是通過(guò)與 Google Cloud Vision API 類似的計(jì)算機(jī)視覺模型生成的。
annotations-human.csv
這是通過(guò)人工驗(yàn)證的圖像層級(jí)標(biāo)簽(每個(gè)訓(xùn)練集、驗(yàn)證集和測(cè)試集中都有)。
ImageID,Source,LabelName,Confidence
000026e7ee790996,verification,/m/04hgtk,0
000026e7ee790996,verification,/m/07j7r,1
000026e7ee790996,crowdsource-verification,/m/01bqvp,1
000026e7ee790996,crowdsource-verification,/m/0csby,1
000026e7ee790996,verification,/m/01_m7,0
000026e7ee790996,verification,/m/01cbzq,1
000026e7ee790996,verification,/m/01czv3,0
000026e7ee790996,verification,/m/01v4jb,0
000026e7ee790996,verification,/m/03d1rd,0
...
這些源代碼指示了標(biāo)簽是如何生成的:
"verification"是人工驗(yàn)證的圖像層級(jí)標(biāo)簽。
"crowdsource-verification"是通過(guò)Crowdsource(眾包) APP進(jìn)行人工驗(yàn)證的標(biāo)簽。
annotations-human-bbox.csv
這是有邊框坐標(biāo)的人工標(biāo)簽(每個(gè)訓(xùn)練集、驗(yàn)證集和測(cè)試集中都有)
訓(xùn)練集標(biāo)簽和邊框坐標(biāo)如下所示:
ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax
000002b66c9c498e,activemil,/m/0284d,1,0.560250,0.951487,0.696401,1.000000
000002b66c9c498e,activemil,/m/052lwg6,1,0.543036,0.907668,0.699531,0.995305
000002b66c9c498e,activemil,/m/0fszt,1,0.510172,0.979656,0.641628,0.987480
000002b66c9c498e,verification,/m/01mzpv,1,0.018750,0.098438,0.767187,0.892187
000002b66c9c498e,xclick,/m/01g317,1,0.012520,0.195618,0.148670,0.588419
000002b66c9c498e,xclick,/m/0284d,1,0.528951,0.924883,0.676056,0.965571
000002b66c9c498e,xclick,/m/02wbm,1,0.530516,0.923318,0.668232,0.976526
000002b66c9c498e,xclick,/m/052lwg6,1,0.516432,0.928012,0.651017,0.985915
000002b66c9c498e,xclick,/m/0fszt,1,0.525822,0.920188,0.669797,0.971831
...
驗(yàn)證集和測(cè)試集的額外屬性也給出來(lái)了:
ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax,IsOccluded,IsTruncated,IsGroupOf,IsDepiction,IsInside
000026e7ee790996,freeform,/m/07j7r,1,0.071905,0.145346,0.206591,0.391306,0,1,1,0,0
000026e7ee790996,freeform,/m/07j7r,1,0.439756,0.572466,0.264153,0.435122,0,1,1,0,0
000026e7ee790996,freeform,/m/07j7r,1,0.668455,1.000000,0.000000,0.552825,0,1,1,0,0
000062a39995e348,freeform,/m/015p6,1,0.205719,0.849912,0.154144,1.000000,0,0,0,0,0
000062a39995e348,freeform,/m/05s2s,1,0.137133,0.377634,0.000000,0.884185,1,1,0,0,0
0000c64e1253d68f,freeform,/m/07yv9,1,0.000000,0.973850,0.000000,0.043342,0,1,1,0,0
0000c64e1253d68f,freeform,/m/0k4j,1,0.000000,0.513534,0.321356,0.689661,0,1,0,0,0
0000c64e1253d68f,freeform,/m/0k4j,1,0.016515,0.268228,0.299368,0.462906,1,0,0,0,0
0000c64e1253d68f,freeform,/m/0k4j,1,0.481498,0.904376,0.232029,0.489017,1,0,0,0,0
class-descriptions.csv
通過(guò)查閱class-descriptions.csv,可以將標(biāo)簽的MID轉(zhuǎn)換成相關(guān)短描述
...
/m/025dyy,Box
/m/025f_6,Dussehra
/m/025fh,Professor x
/m/025fnn,Savannah Sparrow
/m/025fsf,Stapler
/m/025gg7,Jaguar x-type
/m/02_5h,Figure skating
/m/025_h00,Solid-state drive
/m/025_h88,White tailed prairie dog
/m/025_hbp,Mercury monterey
/m/025h_m,Yellow rumped Warbler
/m/025khl,Sp?tzle
...
需要注意逗號(hào)、引號(hào)等,該文件格式遵循標(biāo)準(zhǔn)的CSV格式,示例如下:
/m/02wvth,"Fiat 500 ""topolino"""
/m/03gtp5,Lamb"s quarters
/m/03hgsf0,"Lemon, lime and bitters"
classes.txt
這是19,995個(gè)圖像層級(jí)類的清單
/m/0100nhbf
/m/0104x9kv
/m/0105jzwx
/m/0105ld7g
/m/0105lxy5
/m/0105n86x
/m/0105ts35
/m/0108_09c
/m/01_097
/m/010dmf
...
classes-trainable.txt
這是5000個(gè)可訓(xùn)練的圖像層級(jí)類的清單
classes-bbox.txt
這是600個(gè)邊框?qū)蛹?jí)類的清單
classes-bbox-trainable.txt
這是545個(gè)可訓(xùn)練邊框?qū)蛹?jí)類的清單
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4690.html
閱讀 2913·2021-10-14 09:42
閱讀 1262·2021-09-24 10:32
閱讀 2980·2021-09-23 11:21
閱讀 2859·2021-08-27 13:10
閱讀 3346·2019-08-29 18:41
閱讀 2208·2019-08-29 15:16
閱讀 1218·2019-08-29 13:17
閱讀 903·2019-08-29 11:22