摘要:在全國知識圖譜與語義計算大會上,阿里巴巴集團副總裁藏經(jīng)閣計劃阿里負責(zé)人墻輝玄難宣布藏經(jīng)閣計劃首次在阿里應(yīng)用落地,以及首次披露大規(guī)模知識構(gòu)建技術(shù)細節(jié),并從三個方面進行了解讀。
2018年4月,阿里聯(lián)合清華大學(xué)、浙江大學(xué)、中科院自動化所、中科院軟件所、蘇州大學(xué)等五家機構(gòu),聯(lián)合發(fā)布藏經(jīng)閣(知識引擎)研究計劃,同時還宣布打算用一年時間初步建成首個開放的知識引擎服務(wù)平臺,服務(wù)社會。
在全國知識圖譜與語義計算大會(CCKS)上,阿里巴巴集團副總裁、藏經(jīng)閣計劃阿里負責(zé)人墻輝(玄難)宣布藏經(jīng)閣計劃首次在阿里應(yīng)用落地,以及首次披露大規(guī)模知識構(gòu)建技術(shù)細節(jié),并從三個方面進行了解讀。
阿里巴巴集團副總裁墻輝(玄難)
AI應(yīng)用背后的海量知識
伴隨著過去近19年的發(fā)展,阿里生態(tài)下消費者、賣家、品牌商、運營等各種角色參與其中,每天都產(chǎn)生著海量的數(shù)據(jù)。
以商品相關(guān)的數(shù)據(jù)為例,阿里有近百億級別的實體,例如品牌、產(chǎn)品、條碼等,實體之間又有百億級別的關(guān)系邊。以百科數(shù)據(jù)為例,阿里有近千萬級別的實體,例如人物、地點、公司等,實體之間有十億級別的關(guān)系邊。
這些數(shù)據(jù)來源非常廣泛,有來自國家的數(shù)據(jù),例如GS1編碼中心的條碼數(shù)據(jù),有阿里電商生態(tài)的數(shù)據(jù),例如線上如淘寶、天貓、盒馬,有不同業(yè)務(wù)形態(tài)的數(shù)據(jù),例如高德、UC等。
但對于阿里來說,這些寶貴的資產(chǎn)要求數(shù)據(jù)具備很高的完整度和確定性,多源數(shù)據(jù)要把冗余度降低,數(shù)據(jù)無沖突,并彼此鏈接。最終目的是把數(shù)據(jù)變成知識,能夠支撐著上層的AI應(yīng)用,主要是三個方向:業(yè)務(wù)中臺商業(yè)能力的智能化升級、搜索推薦、智能交互。
除了這些事實類的知識之外,阿里還有大量的形式化知識。
形式化知識對于垂直知識圖譜很重要,構(gòu)建知識圖譜和知識圖譜服務(wù)都要用到這些知識。例如商品知識圖譜生成標(biāo)簽的畫像知識,商品分類的場景知識,生成關(guān)系邊的鏈接知識:判斷商品-產(chǎn)品的關(guān)系,生成屬性值的知識。還有大量的業(yè)務(wù)知識,例如管控業(yè)務(wù)和跨市場商品體系的聯(lián)通,幫賣家把國內(nèi)商品自動發(fā)布到國外。
海量的數(shù)據(jù)和知識,使我們在眾多領(lǐng)域可以建立完善的知識引擎,但同時也面臨很多挑戰(zhàn):
? 阿里業(yè)務(wù)涉及很多垂直領(lǐng)域,如何快速搭建各個領(lǐng)域的知識圖譜?
? 如何把各個領(lǐng)域的知識圖譜快速聯(lián)通?
? 如何管理海量的知識(事實類知識和形式化知識),如何更新這些龐大的知識圖譜?
? 如何面向搜索推薦、智能交互、商業(yè)能力智能化等多種應(yīng)用做統(tǒng)一的知識表示?
? 最終如何實現(xiàn)認知與感知的結(jié)合,實現(xiàn)類腦的推理能力?
首次披露大規(guī)模知識構(gòu)建技術(shù)細節(jié)
面對這些挑戰(zhàn),我們在今年4月,聯(lián)合清華大學(xué)、浙江大學(xué)、中科院自動化所、軟件所、蘇州大學(xué)等五家機構(gòu),聯(lián)合發(fā)布藏經(jīng)閣(知識引擎)研究計劃。
整個計劃依賴阿里強大的計算能力(例如Igraph圖數(shù)據(jù)庫),和先進的機器學(xué)習(xí)算法(例如PAI平臺),把知識引擎分為五個模塊:包括知識建模、知識獲取、知識融合、知識推理計算和知識賦能。
這五個模塊可以提供從數(shù)據(jù)、信息、知識到知識服務(wù)一整套技術(shù)平臺化服務(wù),同時,特定領(lǐng)域知識圖譜可插拔,特定領(lǐng)域知識圖譜加載后,可以提供特定領(lǐng)域的知識服務(wù)。
如今,知識引擎這五大技術(shù)模塊技術(shù)研究有重要進展。
知識融合&知識獲取算法大規(guī)模擴展
知識引擎提供通用的服務(wù)就會面臨很多領(lǐng)域的知識圖譜的構(gòu)建和不同的業(yè)務(wù)。知識融合&知識獲取算法要具備良好的擴展性。良好的擴展性需要快速獲取訓(xùn)練數(shù)據(jù),所以需要引入眾包。
但是,眾包數(shù)據(jù)質(zhì)量參差不齊。不同的標(biāo)注者把iPhoneX和蘋果iPhone X標(biāo)成產(chǎn)品詞,這種不一致樣本會成為訓(xùn)練的噪音。
我們通過對抗學(xué)習(xí),對抗學(xué)習(xí)的優(yōu)化目標(biāo)是分類器分不標(biāo)注者。從而隱層網(wǎng)絡(luò)能學(xué)習(xí)出標(biāo)注者之間的共性特征,然后把這個共性特征拼接到識別模型中。從而提高識別的精度。
提高知識獲取模塊實體關(guān)系抽取的精度
文本的句法信息對實體關(guān)系的識別非常重要。例如A和B創(chuàng)建了公司C。我們挖掘出公司C的創(chuàng)始人是A。通過A和B的并列關(guān)系的句法信息我們就可以知道公司C的創(chuàng)始人還有B。 所以我們設(shè)計了基于樹結(jié)構(gòu)來表示一個實體,從而能夠把句法的層次信息表示進深度學(xué)習(xí)網(wǎng)絡(luò)。
邏輯推理與深度學(xué)習(xí)結(jié)合的推理框架
這個推理引擎,通過一階邏輯霍恩子句能夠表示我們知識圖譜中的百萬級的形式化知識,使得這些知識可沉淀、可復(fù)用、可執(zhí)行。形式化知識實時執(zhí)行可以補全知識圖譜的屬性值,補全實體關(guān)系,生成畫像標(biāo)簽,知識放大支持查詢。
我們的創(chuàng)新點在于:整個推理引擎支持確定性推理,例如基于形式化知識的推理和基于深度學(xué)習(xí)推理,例如基于深度學(xué)習(xí)的關(guān)系補全。同時推理引擎支持算法、詞庫、垂直知識圖譜的可插拔,例如查找產(chǎn)地為中國的食品:用到詞林的信息,產(chǎn)地和原產(chǎn)地是同義詞;用到地理知識圖譜,天津?qū)儆谥袊挥玫剿惴K-同款商品算法,這樣找到的商品量會增加百倍。
藏經(jīng)閣計劃首次應(yīng)用落地
藏經(jīng)閣計劃涉及商品知識圖譜、旅游知識圖譜、客服體驗知識圖譜、安全知識圖譜,如今,該計劃首次在安全知識圖譜和旅游知識圖譜應(yīng)用落地。
我們用知識引擎為城市大腦提供服務(wù),安全知識圖譜全要素搜索上線,能夠讓你的城市更安全,讓每個人在一個城市里面過的更開心。
旅游業(yè)務(wù)是一個知識密集型的業(yè)務(wù),消費者要對一個旅游目的地的知識做到快速獲取和使用。知識引擎提高旅游景點信息質(zhì)量、自動把游記攻略等內(nèi)容結(jié)構(gòu)化,和旅游知識的聯(lián)通,極大提高用戶的旅游體驗。
我們希望一年內(nèi)基于這些知識圖譜沉淀通用的知識引擎服務(wù)包括:1)本體半自動化構(gòu)建算法及管理工具;文本自動結(jié)構(gòu)化算法;多源知識庫融合算法與工具;基于形式化知識的推理及工具; 2)自然語言、邏輯語言、數(shù)據(jù)庫語言查詢服務(wù)。
各類垂直領(lǐng)域知識圖譜,提煉和發(fā)現(xiàn)領(lǐng)域知識,為上層業(yè)務(wù)提供知識服務(wù),實現(xiàn)商業(yè)創(chuàng)新,最終使各個垂直知識圖譜關(guān)聯(lián)互通,建成全領(lǐng)域知識圖譜,為社會服務(wù)。
本文作者:阿里妹
閱讀原文
本文來自云棲社區(qū)合作伙伴“阿里技術(shù)”,如需轉(zhuǎn)載請聯(lián)系原作者。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/11401.html
摘要:月日,杭州云棲大會生態(tài)峰會上,阿里云宣布云合再次升級,智能首次被引入全球云計算生態(tài)。據(jù)云市場事業(yè)部總經(jīng)理朱以軍介紹,阿里云全球智能生態(tài)基礎(chǔ)網(wǎng)絡(luò)已經(jīng)構(gòu)建。年前,阿里云發(fā)布云合計劃,建設(shè)生態(tài)體系。10月12日,2017杭州·云棲大會生態(tài)峰會上,阿里云宣布云合再次升級,智能首次被引入全球云計算生態(tài)。大航海時代,船只承載著冒險者,首次實現(xiàn)了全球的交易交流;今天,國際化的阿里云生態(tài)也希望匯聚海內(nèi)外合作...
摘要:近日,不斷有外媒爆料,谷歌正在秘密尋求與騰訊在云服務(wù)業(yè)務(wù)上的合作。今年月份發(fā)布的中國公有云服務(wù)市場半年度跟蹤報告顯示,阿里云業(yè)務(wù)在中國云計算市場上占據(jù)了的份額,而騰訊云只有。傳聞傳久了,或許就變成真的了。近日,不斷有外媒爆料,谷歌正在秘密尋求與騰訊在云服務(wù)業(yè)務(wù)上的合作。The Information就直接指出,谷歌并不打算直接在中國推出谷歌云服務(wù),而是希望借道騰訊,讓谷歌云端服務(wù)的企業(yè)用戶在...
閱讀 1699·2023-04-26 02:11
閱讀 3022·2023-04-25 16:18
閱讀 3743·2021-09-06 15:00
閱讀 2666·2019-08-30 15:55
閱讀 1964·2019-08-30 13:20
閱讀 2077·2019-08-26 18:36
閱讀 3163·2019-08-26 11:40
閱讀 2586·2019-08-26 10:11