摘要:我們的研究表明,結(jié)合公共數(shù)據(jù)和機(jī)器學(xué)習(xí)方法,可以得到社會(huì)經(jīng)濟(jì)數(shù)據(jù)和美國人的政治傾向。
AI科技評(píng)論按:最近,一篇名為《Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US》的論文發(fā)布到了arxiv.org上,作為這篇論文的聯(lián)合作者之一,李飛飛在她的推特上向公眾推薦了這篇論文。這篇論文主要論述了如何將谷歌街景車搜集來的機(jī)動(dòng)車輛數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)算法,從而估算出本地區(qū)人口的特征和組成,甚至這一地區(qū)居民的政治傾向。
下面是這篇論文的一些節(jié)選內(nèi)容,原文地址為:https://arxiv.org/abs/1702.06683。由AI科技評(píng)論編譯。
幾千年來,統(tǒng)治者和政策制定者進(jìn)行全國人口調(diào)查,用來搜集人口數(shù)據(jù)。在美國,最細(xì)致的人口調(diào)查工作就是“美國社區(qū)調(diào)差”(ACS),由美國普查局執(zhí)行,每年花費(fèi)10億美元和6500人以上的人力。這是一個(gè)勞動(dòng)密集型數(shù)據(jù)搜集過程。
最近幾年,計(jì)算方法崛起成為解決社會(huì)科學(xué)領(lǐng)域問題的有效方法。比如用Twitter上的數(shù)據(jù)預(yù)測(cè)失業(yè)率、使用書里的大量文本分析文化等等。這些例子表明,計(jì)算方法可以促進(jìn)社會(huì)經(jīng)濟(jì)領(lǐng)域的研究發(fā)展,最終可以詳細(xì)、實(shí)時(shí)地分析人口趨勢(shì),并且成本很便宜。
我們的研究表明,結(jié)合公共數(shù)據(jù)和機(jī)器學(xué)習(xí)方法,可以得到社會(huì)經(jīng)濟(jì)數(shù)據(jù)和美國人的政治傾向。我們的流程里,針對(duì)幾個(gè)城市耗費(fèi)少量人力來搜集數(shù)據(jù),然后用來預(yù)測(cè)全美的狀況。
具體而言,我們分析了由谷歌街景汽車在200個(gè)城市里搜集來的5000萬張圖片。我們的數(shù)據(jù)主要是關(guān)于機(jī)動(dòng)車輛,因?yàn)?0%的美國家庭都擁有至少一輛汽車,而且人們對(duì)汽車的選擇受到多種人口因素的影響,包括家庭需求、個(gè)人偏好和資金等。
基于深度學(xué)習(xí)的CNN計(jì)算機(jī)視覺框架,不僅能夠在復(fù)雜的街景下識(shí)別出汽車,還能鑒定出一系列汽車特征,包括材料、型號(hào)和年份。對(duì)于一個(gè)未經(jīng)訓(xùn)練的人來說,汽車之間的不同是難以發(fā)覺的。比如,同一型號(hào)的汽車,不同年份的在尾燈有微小變化(比如2007產(chǎn)的Honda Accord和2008年產(chǎn)Honda Accord)。然而,我們的系統(tǒng)就能夠?qū)⑵嚪殖?657類,每張圖片的分析時(shí)間只需0.2秒。該系統(tǒng)可以在2周時(shí)間里對(duì)5000萬張圖片分類,而一個(gè)專業(yè)的人類分類員,假設(shè)他每張需要10秒時(shí)間,將會(huì)花費(fèi)15年的時(shí)間完成這個(gè)任務(wù)。
利用谷歌街景汽車搜集來5000萬張圖片,我們使用圖像識(shí)別算法(Deformable Part Model)來學(xué)習(xí)自動(dòng)搜集汽車圖片。搜集每一輛汽車圖片后,我們部署CNN模型,用來進(jìn)行物體分類,來判定每一輛車的材料、型號(hào)、車型和年份。然后,我們根據(jù)城鎮(zhèn)名字分類數(shù)據(jù)庫,劃分到兩個(gè)數(shù)據(jù)庫里。第一個(gè)是"訓(xùn)練庫",包含了所有名字以A、B、 C開頭的地區(qū),這個(gè)數(shù)據(jù)庫包括了35個(gè)城市,訓(xùn)練產(chǎn)生模型;第二個(gè)是“測(cè)試庫”,包括所有名字以D、Z為開頭的地區(qū),這個(gè)數(shù)據(jù)庫用來提升模型。
我們總共搜集了2200萬輛(占全美汽車總數(shù)8%)汽車的數(shù)據(jù),用來準(zhǔn)確估算這個(gè)地區(qū)的收入、種族、教育和投票程式(voting pattern)。結(jié)果顯示出的關(guān)系出人意料的簡(jiǎn)單和有力。比如,如果在一個(gè)城市里15分鐘的車程中,遇到的轎車數(shù)量高于卡車數(shù)量,那么這個(gè)城市傾向于在下屆大選中投票給民主黨(88%幾率);反之則傾向于投票給共和黨(82%)。我們的結(jié)果表明,自動(dòng)系統(tǒng)監(jiān)測(cè)使用良好的空間分辨率,能夠接近實(shí)時(shí)地監(jiān)測(cè)人口趨勢(shì),可以有效地輔助勞動(dòng)密集型的調(diào)查方法。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4482.html
摘要:谷歌云在其官方博客上公布,確認(rèn)來自卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)科學(xué)院院長教授將在年底接任李飛飛的谷歌云負(fù)責(zé)人職位,而李飛飛也將正式回歸斯坦福大學(xué)當(dāng)教授。兩年前,李飛飛從斯坦福休假加入谷歌,成為谷歌云的負(fù)責(zé)人與首席科學(xué)家。今年7月的谷歌Next大會(huì)上,李飛飛宣布了兩年前推進(jìn)的Contact Center落地、AutoML推出自然語言和翻譯服務(wù)、TPU 3.0進(jìn)入谷歌云,這意味著谷歌云擁抱AI Fir...
摘要:谷歌最近人事變動(dòng)頗為頻繁,在李佳被爆離開谷歌后,有消息稱谷歌云服務(wù)的負(fù)責(zé)人戴安妮格林也將辭職,其職位將由甲骨文前總裁托馬斯庫里安接任。如今,加飛貓陸續(xù)離開百度云,格林也準(zhǔn)備辭職,除了個(gè)人主觀原因之外,必然和谷歌云服務(wù)近兩年的發(fā)展相關(guān)。谷歌最近人事變動(dòng)頗為頻繁,在李佳被爆離開谷歌后,有消息稱谷歌云服務(wù)的負(fù)責(zé)人戴安妮·格林也將辭職,其職位將由甲骨文前總裁托馬斯·庫里安(Thomas Kurian...
摘要:年月日,將標(biāo)志著一個(gè)時(shí)代的終結(jié)。數(shù)據(jù)集最初由斯坦福大學(xué)李飛飛等人在的一篇論文中推出,并被用于替代數(shù)據(jù)集后者在數(shù)據(jù)規(guī)模和多樣性上都不如和數(shù)據(jù)集在標(biāo)準(zhǔn)化上不如。從年一個(gè)專注于圖像分類的數(shù)據(jù)集,也是李飛飛開創(chuàng)的。 2017 年 7 月 26 日,將標(biāo)志著一個(gè)時(shí)代的終結(jié)。那一天,與計(jì)算機(jī)視覺頂會(huì) CVPR 2017 同期舉行的 Workshop——超越 ILSVRC(Beyond ImageNet ...
閱讀 1337·2021-11-22 09:34
閱讀 2201·2021-10-08 10:18
閱讀 1758·2021-09-29 09:35
閱讀 2496·2019-08-29 17:20
閱讀 2168·2019-08-29 15:36
閱讀 3427·2019-08-29 13:52
閱讀 811·2019-08-29 12:29
閱讀 1211·2019-08-28 18:10