摘要:達(dá)摩院的科學(xué)家們最近在用識別謠言的研究上,有了一些小突破。有始有終,皆大歡喜達(dá)摩院所研發(fā)的謠言粉碎機(jī),在剛剛結(jié)束的全球語義測試中,創(chuàng)造了假新聞識別準(zhǔn)確率的新紀(jì)錄,達(dá)到了前所未有的。謠言粉碎機(jī)技術(shù)的背后,是一次史無前例的信任重建。
生命不可能從謊言中開出燦爛的鮮花。
前幾天,母上大人給我發(fā)了條消息,再三叮囑幫忙擴(kuò)散,隨手解救癌癥患者。
“速轉(zhuǎn)!科學(xué)家發(fā)現(xiàn):一味中藥48小時可殺死60%癌細(xì)胞!”
回復(fù)框里,我打了一段長長的反駁文字。在按下發(fā)送前沉思良久,為了保住每日的晚飯,我又默默刪除了。
母上大人的朋友圈,啥都不說了
從那句熟悉的“狼來了”開始,謠言開始在我們生活無孔不入,一些不壞好意的人,把謊言變成一張漂亮的包裝紙,裹挾著詐騙、虛榮、不懷好意,肆意橫行:
當(dāng)全民瘋搶板藍(lán)根食鹽白醋,終日人心惶惶;
當(dāng)“養(yǎng)生秘聞”“200%理財回報”充斥在朋友圈,無數(shù)養(yǎng)老錢血本無歸;
當(dāng)“寒門狀元之死”透支人們對世界的信任;
......
人們被迫練就了一身硬邦邦的鎧甲,一邊斜眉冷視周圍的世界,一邊草木皆兵地生存。寧可信其有,不可信其無。
然而,總有人想改變這一切。達(dá)摩院的科學(xué)家們最近在用AI識別謠言的研究上,有了一些小突破。
“謠言粉碎機(jī)”,也許離我們并不遙遠(yuǎn)?
(1)在了解到這個信息后,我第一時間采訪到了達(dá)摩院NLP團(tuán)隊的核心成員之一——李泉志,他本科畢業(yè)于清華大學(xué),后在美國獲得自然語言理解方向的博士學(xué)位,目前在達(dá)摩院的西雅圖辦公室工作。
李泉志,達(dá)摩院智能實驗室科學(xué)家
在加入達(dá)摩院前,他曾是世界級通訊社——路透社重要的“情報官”:通過機(jī)器篩選成千上萬的網(wǎng)絡(luò)信息,為數(shù)千位一線記者提供可靠線索。
借著這個難得的機(jī)會,我“假公濟(jì)私”,請泉志使用算法鑒定我媽發(fā)來的新聞?wù)婕?,還原“打假”現(xiàn)場。
在泉志的詳細(xì)說明下,一個令人驚嘆的“打假”模型逐漸露出。事實上,這個運算邏輯遠(yuǎn)比我之前想得要復(fù)雜,甚至顯得有點“老謀深算”。
泉志告訴我,判斷一個新聞?wù)婕?,要分三個步驟。
首先,在盤根錯節(jié)的信息里,機(jī)器會找到最初的信源,分析其用戶畫像(專業(yè)領(lǐng)域,個人或機(jī)構(gòu),機(jī)構(gòu)類型,影響力,過去發(fā)表的內(nèi)容類型,是否可信,地域,注冊時間,活躍規(guī)律等),進(jìn)而判斷此發(fā)布者的信譽(yù)度。
如果這條新聞帶有鏈接,我們可以再看看鏈接的域名,是否來自可信網(wǎng)站,比如新華社、政府醫(yī)藥管理局。
接下來,我們拿起聽診器,細(xì)細(xì)揣摩正文的“心跳聲”:
“一味中藥48小時可殺死60%癌細(xì)胞!”打開正文,我們看看究竟這味中藥的成分是哪些?具體對哪些癌細(xì)胞起作用?機(jī)器會把這些關(guān)鍵的論證提煉為知識點,與知識圖譜里的權(quán)威知識庫做匹配驗證。如果毫無聯(lián)系、自相矛盾,減分。
泉志表示,除了內(nèi)容不實、上下文邏輯不連貫外,機(jī)器還能從行文風(fēng)格里找到蛛絲馬跡。比如:
“多一次轉(zhuǎn)發(fā)就多一次活命機(jī)會”
“傳瘋了!晚上一定要關(guān)wifi,太嚇人了”
......
是的,機(jī)器連“標(biāo)題黨”都不放過!假新聞經(jīng)常會采用夸大性、空洞的說辭來危言聳聽。真新聞往往行文嚴(yán)謹(jǐn)、一絲不茍。
如果說前面兩步,還算是常規(guī)操作。第三步,就是關(guān)鍵:對傳播路徑的深入分析。
一條謠言在社交網(wǎng)絡(luò)里引爆,必然有無數(shù)的人密集關(guān)注。在留言、轉(zhuǎn)發(fā)等行為里,有人贊同,有反對,還有質(zhì)疑,或者只是簡單的路過,都是一種態(tài)度。
機(jī)器統(tǒng)計不僅能統(tǒng)計所有用戶的態(tài)度,更不可思議的是,它會“看人下菜”,區(qū)別對待每條發(fā)言的分量。
比如,我弟轉(zhuǎn)發(fā)了母上發(fā)來的新聞,冒著零用錢縮水的危險表示:“假的!昨天食品監(jiān)督局已經(jīng)公開辟謠了”——這條反對意見質(zhì)疑得較為有力,權(quán)重提升。
隨后,ID為“小旺仔”的用戶也在此條新聞下留言,只寫了四個字:消息不實。雖然寥寥數(shù)字,但是機(jī)器一看,不得了,小旺仔的認(rèn)證信息是該省第一附屬醫(yī)院的醫(yī)學(xué)教授,權(quán)重也得提升。
機(jī)器會對所有反饋用戶進(jìn)行畫像分析:是否是認(rèn)證用戶、過去發(fā)表的內(nèi)容類型、注冊時間、活躍規(guī)律、是否和事件發(fā)生地在同一個地方等,以此來計算用戶信譽(yù)度。最后根據(jù)不同態(tài)度的人群比例、各自的信譽(yù)度,以及處于傳播路徑中的位置等信息,計算出此新聞的可信度。
“如果有人轉(zhuǎn)發(fā)了小旺仔的留言,表示‘舉雙爪支持’,系統(tǒng)會不會認(rèn)為這是對新聞的贊同?”我感覺自己抓到了系統(tǒng)漏洞,有點小激動。
泉志表示這個問題提得非常好,接著干脆地做了否定:“我們的整個傳播路徑是個神經(jīng)網(wǎng)絡(luò),環(huán)環(huán)相扣,不會斷章取義的?!?/p>
以上三步中計算出的信息會輸入到神經(jīng)網(wǎng)絡(luò)模型中?;谶@些信息,模型會綜合判斷出此新聞是否為謠言。
(2)這個模型的魅力之處在于,你不必為它編寫程序去學(xué)習(xí)人類的指令:它能完全自主學(xué)習(xí)訓(xùn)練,就像人腦一樣“思考”。隨著知識庫的日益豐富,它的判斷能力會越來越好。
“簡直是一位飛速成長的大編輯!”我感嘆道。
“這還不是全部”,泉志爽朗笑了,“我們還用了多任務(wù)學(xué)習(xí),‘一心多用’,讓機(jī)器在同一時間完成多個復(fù)雜任務(wù),判斷內(nèi)容真假、觀察傳播路徑、挖掘用戶畫像這些都能同時進(jìn)行?!?/p>
在有條不紊的運算機(jī)制里,機(jī)器就像一位冷峻的解剖師,切開浮夸的表象,梳理每一條新聞的經(jīng)脈、肌理走向,抽絲剝繭,層層剝開,最終找到事實的內(nèi)核。
泉志接著又透露了一個重要信息——這項技術(shù)不僅能控制假新聞源頭、防止謠言大規(guī)模擴(kuò)散,它還有一個隱藏的“大招”。
傳謠容易,辟謠難。謠言的擴(kuò)散速度猶如遇到林木的大火,一點即燃,但是當(dāng)真相出來時,卻往往無人問津。
比如,網(wǎng)絡(luò)曾謠傳市面上的香蕉大多泡過藥水,許多人從此再沒買過香蕉。即使數(shù)年后風(fēng)頭過去,還有人表示吃香蕉總覺得有藥水味。
這項技術(shù)的隱藏”大招“,是可以針對性地為民眾辟謠。根據(jù)傳播路徑索引,曾經(jīng)支持“香蕉浸泡毒液”的人,都可以收到官方的辟謠信息:香蕉浸泡的白色液體不是甲醛,而是符合國家安全標(biāo)準(zhǔn)的保鮮劑,無毒無害;吃醬油不會變黑、開水重復(fù)燒也不會有事,交999元每月回報99的“好事”自然更是子虛烏有。
有始有終,皆大歡喜!
(3)達(dá)摩院所研發(fā)的“AI謠言粉碎機(jī)”,在剛剛結(jié)束的SemEval全球語義測試中,創(chuàng)造了假新聞識別準(zhǔn)確率的新紀(jì)錄,達(dá)到了前所未有的81%。
SemEval 是自然語言處理領(lǐng)域的國際權(quán)威比賽,由國際計算語言學(xué)學(xué)會舉辦。假新聞識別是此次比賽的主要項目之一,吸引了哥倫比亞大學(xué)、華盛頓大學(xué)、艾倫·圖靈研究所等20多路頂級高手參與。
賽題是這樣的:
主辦方向所有參賽者提供社交媒體上470余條新聞、以及一萬多條相關(guān)的留言、轉(zhuǎn)發(fā)等數(shù)據(jù)。參賽者需要根據(jù)這些有限的信息,判斷這數(shù)百條新聞是真是假。
這些似是而非的新聞涉及政治、娛樂、商業(yè)、科技等多個領(lǐng)域,比如——
特朗普的差旅開支遠(yuǎn)遠(yuǎn)低于奧巴馬;
太陽報:英國女王支持英國脫歐;
震驚了!臺風(fēng)過后,高速公路出現(xiàn)一條大鯊魚;
美國九成媒體被六家公司控制;
吉薩金字塔能利用隱秘的房間集中電磁能能量;
......
此次比賽桂冠由達(dá)摩院NLP首席科學(xué)家司羅所屬的團(tuán)隊斬獲,真假新聞二分類上的準(zhǔn)確率高達(dá)81%,刷新了本競賽系列上macro F 、RMSE兩項關(guān)鍵性指標(biāo)的世界記錄。
在此之前,達(dá)摩院NLP團(tuán)隊曾在機(jī)器閱讀理解頂級賽事SQuAD上,憑借82.440的精準(zhǔn)率打破了歷史紀(jì)錄;在國際頂級機(jī)器翻譯大賽WMT上,連奪英文-中文翻譯、英文-俄語互譯、英文-土耳其語互譯5項第一。
讓機(jī)器讀懂人類語言,并判斷人類的表達(dá)意圖,從而進(jìn)一步幫助人類實現(xiàn)對信息真假的判斷,達(dá)摩院的科學(xué)家們,從未放棄對技術(shù)難題的攻克。
(4)隔著一萬多千米的太平洋,與泉志說再見后,我突然想起了今年春晚的小品《“兒子”來了》:葛優(yōu)飾演的保健品銷售員,用夸張的“床墊”欺騙一對老夫妻。
從“狼來了”到“兒子來了”,信任在不知不覺中成了世上最高的門檻。
我們知道天下不會掉餡餅,但當(dāng)周圍人都在轉(zhuǎn)發(fā)高額理財新聞時仍會忍不住動搖;
我們本不會勤于研究飯菜的化學(xué)中和反應(yīng),但萬一同時吃了螃蟹和香菇中毒呢;
我們從不擔(dān)心銀行沒收存款,但在接到短信“銀行卡已被凍結(jié)需支付保證金”時虎軀一震……
人類的原始本能告訴我們要相信彼此,然而世界正變得日益龐大和復(fù)雜,道德、名聲的影響力已不如往昔,傳統(tǒng)的信任出現(xiàn)了縫隙。
“謠言粉碎機(jī)”技術(shù)的背后,是一次史無前例的信任重建。只有假新聞被扼殺在繁衍的溫床里,破碎將傾的信任才會被重新扶起頂天立地。
而信任,是愛的最好證明。
AI = 愛。
閱讀原文
本文來自云棲社區(qū)合作伙伴“阿里技術(shù),如需轉(zhuǎn)載請聯(lián)系原作者。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19944.html
摘要:背景有時我們能在開發(fā)者工具的里觀察到應(yīng)用會發(fā)出某些狀態(tài)為取消的請求。如下圖第五個請求。之前有一種似是而非的說法極短時間內(nèi)發(fā)送兩個請求,則第一個會自動被掉。前一個請求的還處于的時候。就讀的代碼和觀察到的現(xiàn)象,在上發(fā)起或者的時候。 背景 有時我們能在Chrome開發(fā)者工具的Network tab里觀察到SAP UI5應(yīng)用會發(fā)出某些狀態(tài)為取消的OData請求。如下圖第五個請求。 之前有一種似...
摘要:背景有時我們能在開發(fā)者工具的里觀察到應(yīng)用會發(fā)出某些狀態(tài)為取消的請求。如下圖第五個請求。之前有一種似是而非的說法極短時間內(nèi)發(fā)送兩個請求,則第一個會自動被掉。前一個請求的還處于的時候。就讀的代碼和觀察到的現(xiàn)象,在上發(fā)起或者的時候。 背景 有時我們能在Chrome開發(fā)者工具的Network tab里觀察到SAP UI5應(yīng)用會發(fā)出某些狀態(tài)為取消的OData請求。如下圖第五個請求。 之前有一種似...
摘要:背景有時我們能在開發(fā)者工具的里觀察到應(yīng)用會發(fā)出某些狀態(tài)為取消的請求。如下圖第五個請求。之前有一種似是而非的說法極短時間內(nèi)發(fā)送兩個請求,則第一個會自動被掉。前一個請求的還處于的時候。就讀的代碼和觀察到的現(xiàn)象,在上發(fā)起或者的時候。 背景 有時我們能在Chrome開發(fā)者工具的Network tab里觀察到SAP UI5應(yīng)用會發(fā)出某些狀態(tài)為取消的OData請求。如下圖第五個請求。 之前有一種似...
摘要:背景有時我們能在開發(fā)者工具的里觀察到應(yīng)用會發(fā)出某些狀態(tài)為取消的請求。如下圖第五個請求。之前有一種似是而非的說法極短時間內(nèi)發(fā)送兩個請求,則第一個會自動被掉。前一個請求的還處于的時候。就讀的代碼和觀察到的現(xiàn)象,在上發(fā)起或者的時候。 背景 有時我們能在Chrome開發(fā)者工具的Network tab里觀察到SAP UI5應(yīng)用會發(fā)出某些狀態(tài)為取消的OData請求。如下圖第五個請求。 之前有一種似...
閱讀 3034·2021-11-24 09:39
閱讀 2272·2021-10-08 10:05
閱讀 2764·2021-09-24 13:52
閱讀 1582·2021-09-22 15:07
閱讀 600·2019-08-30 15:55
閱讀 1819·2019-08-30 15:53
閱讀 699·2019-08-30 15:44
閱讀 3128·2019-08-30 11:20