成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

一文揭秘!自底向上構(gòu)建知識(shí)圖譜全過(guò)程

馬龍駒 / 2990人閱讀

摘要:在本文中,筆者主要想分享一下自底向上構(gòu)建知識(shí)圖譜的全過(guò)程,拋磚引玉,歡迎大家交流。隨著自動(dòng)知識(shí)抽取與加工技術(shù)的不斷成熟,當(dāng)前的知識(shí)圖譜大多采用自底向上的方式構(gòu)建,如的和微軟的知識(shí)庫(kù)。

阿里妹導(dǎo)讀:知識(shí)圖譜的構(gòu)建技術(shù)主要有自頂向下和自底向上兩種。其中自頂向下構(gòu)建是指借助百科類網(wǎng)站等結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中提取本體和模式信息,加入到知識(shí)庫(kù)里。而自底向上構(gòu)建,則是借助一定的技術(shù)手段,從公開采集的數(shù)據(jù)中提取出資源模式,選擇其中置信度較高的信息,加入到知識(shí)庫(kù)中。

在本文中,筆者主要想分享一下自底向上構(gòu)建知識(shí)圖譜的全過(guò)程,拋磚引玉,歡迎大家交流。

“The world is not made of strings , but is made of things.”
——辛格博士,from Google.

知識(shí)圖譜,是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于迅速描述物理世界中的概念及其相互關(guān)系,通過(guò)將數(shù)據(jù)粒度從document級(jí)別降到data級(jí)別,聚合大量知識(shí),從而實(shí)現(xiàn)知識(shí)的快速響應(yīng)和推理。

當(dāng)下知識(shí)圖譜已在工業(yè)領(lǐng)域得到了廣泛應(yīng)用,如搜索領(lǐng)域的Google搜索、百度搜索,社交領(lǐng)域的領(lǐng)英經(jīng)濟(jì)圖譜,企業(yè)信息領(lǐng)域的天眼查企業(yè)圖譜等。

在知識(shí)圖譜技術(shù)發(fā)展初期,多數(shù)參與企業(yè)和科研機(jī)構(gòu)主要采用自頂向下的方式構(gòu)建基礎(chǔ)知識(shí)庫(kù),如Freebase。隨著自動(dòng)知識(shí)抽取與加工技術(shù)的不斷成熟,當(dāng)前的知識(shí)圖譜大多采用自底向上的方式構(gòu)建,如Google的Knowledge Vault和微軟的Satori知識(shí)庫(kù)。

1、定義

俗話說(shuō):“看人先看臉?!痹谖覀兩钊肓私庵R(shí)圖譜之前,讓我們先來(lái)看一下它長(zhǎng)什么樣子!

如圖所示,你可以看到,如果兩個(gè)節(jié)點(diǎn)之間存在關(guān)系,他們就會(huì)被一條無(wú)向邊連接在一起,那么這個(gè)節(jié)點(diǎn),我們就稱為實(shí)體(Entity),它們之間的這條邊,我們就稱為關(guān)系(Relationship)。

知識(shí)圖譜的基本單位,便是“實(shí)體(Entity)-關(guān)系(Relationship)-實(shí)體(Entity)”構(gòu)成的三元組,這也是知識(shí)圖譜的核心。

2、數(shù)據(jù)類型和存儲(chǔ)方式

知識(shí)圖譜的原始數(shù)據(jù)類型一般來(lái)說(shuō)有三類(也是互聯(lián)網(wǎng)上的三類原始數(shù)據(jù)):

結(jié)構(gòu)化數(shù)據(jù)(Structed Data),如關(guān)系數(shù)據(jù)庫(kù)

非結(jié)構(gòu)化數(shù)據(jù),如圖片、音頻、視頻

半結(jié)構(gòu)化數(shù)據(jù) 如XML、JSON、百科

如何存儲(chǔ)上面這三類數(shù)據(jù)類型呢?一般有兩種選擇,一個(gè)是通過(guò)RDF(資源描述框架)這樣的規(guī)范存儲(chǔ)格式來(lái)進(jìn)行存儲(chǔ),比較常用的有Jena等。

還有一種方法,就是使用圖數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ),常用的有Neo4j等。

那你可能會(huì)問(wèn)我了,你不就是一大堆的三元組嗎,用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)不也一樣嘛。

是的,用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ),尤其是存儲(chǔ)簡(jiǎn)單的知識(shí)圖譜,從技術(shù)上來(lái)說(shuō)是完全沒問(wèn)題的。

但需要注意的是,一旦知識(shí)圖譜變復(fù)雜,圖數(shù)據(jù)庫(kù)在關(guān)聯(lián)查詢的效率上會(huì)比傳統(tǒng)的關(guān)系數(shù)據(jù)存儲(chǔ)方式有顯著的提高。當(dāng)我們涉及到2,3度的關(guān)聯(lián)查詢,基于知識(shí)圖譜的查詢效率會(huì)高出幾千倍甚至幾百萬(wàn)倍。

除此之外,基于圖的存儲(chǔ)在設(shè)計(jì)上會(huì)非常靈活,一般只需要局部的改動(dòng)即可。

因此如果你的數(shù)據(jù)量較大,還是建議直接用圖數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ)的。

3、知識(shí)圖譜的架構(gòu)

知識(shí)圖譜的架構(gòu)主要可以被分為:

邏輯架構(gòu)

技術(shù)架構(gòu)

3.1 邏輯架構(gòu)

在邏輯上,我們通常將知識(shí)圖譜劃分為兩個(gè)層次:數(shù)據(jù)層和模式層。

模式層:在數(shù)據(jù)層之上,是知識(shí)圖譜的核心,存儲(chǔ)經(jīng)過(guò)提煉的知識(shí),通常通過(guò)本體庫(kù)來(lái)管理這一層這一層(本體庫(kù)可以理解為面向?qū)ο罄锏摹邦悺边@樣一個(gè)概念,本體庫(kù)就儲(chǔ)存著知識(shí)圖譜的類)。

數(shù)據(jù)層:存儲(chǔ)真實(shí)的數(shù)據(jù)。

如果還是有點(diǎn)模糊,可以看看這個(gè)例子:

模式層:實(shí)體-關(guān)系-實(shí)體,實(shí)體-屬性-性值

數(shù)據(jù)層:比爾蓋茨-妻子-梅琳達(dá)·蓋茨,比爾蓋茨-總裁-微軟

3.2 技術(shù)架構(gòu)

知識(shí)圖譜的整體架構(gòu)如圖所示,其中虛線框內(nèi)的部分為知識(shí)圖譜的構(gòu)建過(guò)程,同時(shí)也是知識(shí)圖譜更新的過(guò)程。

別緊張,讓我們順著這張圖來(lái)理一下思路。首先我們有一大堆的數(shù)據(jù),這些數(shù)據(jù)可能是結(jié)構(gòu)化的、非結(jié)構(gòu)化的以及半結(jié)構(gòu)化的,然后我們基于這些數(shù)據(jù)來(lái)構(gòu)建知識(shí)圖譜,這一步主要是通過(guò)一系列自動(dòng)化或半自動(dòng)化的技術(shù)手段,來(lái)從原始數(shù)據(jù)中提取出知識(shí)要素,即一堆實(shí)體關(guān)系,并將其存入我們的知識(shí)庫(kù)的模式層和數(shù)據(jù)層。

構(gòu)建知識(shí)圖譜是一個(gè)迭代更新的過(guò)程,根據(jù)知識(shí)獲取的邏輯,每一輪迭代包含三個(gè)階段:

信息抽?。簭母鞣N類型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá);

知識(shí)融合:在獲得新知識(shí)之后,需要對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等;

知識(shí)加工:對(duì)于經(jīng)過(guò)融合的新知識(shí),需要經(jīng)過(guò)質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分加入到知識(shí)庫(kù)中,以確保知識(shí)庫(kù)的質(zhì)量。

4、構(gòu)建技術(shù)

前面我們已經(jīng)說(shuō)過(guò)了,知識(shí)圖譜有自頂向下和自底向上兩種構(gòu)建方式,這里提到的構(gòu)建技術(shù)主要是自底向上的構(gòu)建技術(shù)。

如前所述,構(gòu)建知識(shí)圖譜是一個(gè)迭代更新的過(guò)程,根據(jù)知識(shí)獲取的邏輯,每一輪迭代包含三個(gè)階段:

信息抽取:從各種類型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá);

知識(shí)融合:在獲得新知識(shí)之后,需要對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等;

知識(shí)加工:對(duì)于經(jīng)過(guò)融合的新知識(shí),需要經(jīng)過(guò)質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分加入到知識(shí)庫(kù)中,以確保知識(shí)庫(kù)的質(zhì)量,見下圖

下面我們依次來(lái)對(duì)每一個(gè)步驟進(jìn)行介紹。(長(zhǎng)文預(yù)警)

4.1 信息抽取

信息抽?。╥nfromation extraction)是知識(shí)圖譜構(gòu)建的第1步,其中的關(guān)鍵問(wèn)題是:如何從異構(gòu)數(shù)據(jù)源中自動(dòng)抽取信息得到候選指示單元?

信息抽取是一種自動(dòng)化地從半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息的技術(shù)。

涉及的關(guān)鍵技術(shù)包括:實(shí)體抽取、關(guān)系抽取和屬性抽取。

4.1.1 實(shí)體抽取

實(shí)體抽取,也稱為命名實(shí)體識(shí)別(named entity recognition,NER),是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體。

比如在下圖中,通過(guò)實(shí)體抽取我們可以從其中抽取出三個(gè)實(shí)體——“Steve Balmer”, "Bill Gates",和"Microsoft"。

實(shí)體抽取的研究歷史主要是從面向單一領(lǐng)域進(jìn)行實(shí)體抽取,逐步跨步到面向開放域(open domain)的實(shí)體抽取。

4.1.2 關(guān)系抽取

文本語(yǔ)料經(jīng)過(guò)實(shí)體抽取之后,得到的是一系列離散的命名實(shí)體,為了得到語(yǔ)義信息,還需要從相關(guān)語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,通過(guò)關(guān)系將實(shí)體聯(lián)系起來(lái),才能夠形成網(wǎng)狀的知識(shí)結(jié)構(gòu)。這就是關(guān)系抽取需要做的事,如下圖所示。

研究歷史:

人工構(gòu)造語(yǔ)法和語(yǔ)義規(guī)則(模式匹配)

統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法

基于特征向量或核函數(shù)的有監(jiān)督學(xué)習(xí)方法

研究重點(diǎn)轉(zhuǎn)向半監(jiān)督和無(wú)監(jiān)督

開始研究面向開放域的信息抽取方法

將面向開放域的信息抽取方法和面向封閉領(lǐng)域的傳統(tǒng)方法結(jié)合

4.1.3 屬性抽取

屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息,如針對(duì)某個(gè)公眾人物,可以從網(wǎng)絡(luò)公開信息中得到其昵稱、生日、國(guó)籍、教育背景等信息。

研究歷史:

將實(shí)體的屬性視作實(shí)體與屬性值之間的一種名詞性關(guān)系,將屬性抽取任務(wù)轉(zhuǎn)化為關(guān)系抽取任務(wù)。

基于規(guī)則和啟發(fā)式算法,抽取結(jié)構(gòu)化數(shù)據(jù)

基于百科類網(wǎng)站的半結(jié)構(gòu)化數(shù)據(jù),通過(guò)自動(dòng)抽取生成訓(xùn)練語(yǔ)料,用于訓(xùn)練實(shí)體屬性標(biāo)注模型,然后將其應(yīng)用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的實(shí)體屬性抽取。

采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性和屬性值之間的關(guān)系模式,據(jù)此實(shí)現(xiàn)對(duì)屬性名和屬性值在文本中的定位。

4.2 知識(shí)融合

通過(guò)信息抽取,我們就從原始的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取到了實(shí)體、關(guān)系以及實(shí)體的屬性信息。

如果我們將接下來(lái)的過(guò)程比喻成拼圖的話,那么這些信息就是拼圖碎片,散亂無(wú)章,甚至還有從其他拼圖里跑來(lái)的碎片、本身就是用來(lái)干擾我們拼圖的錯(cuò)誤碎片。
也就是說(shuō):

拼圖碎片(信息)之間的關(guān)系是扁平化的,缺乏層次性和邏輯性;

拼圖(知識(shí))中還存在大量冗雜和錯(cuò)誤的拼圖碎片(信息)

那么如何解決這一問(wèn)題,就是在知識(shí)融合這一步里我們需要做的了。

知識(shí)融合包括2部分內(nèi)容:

實(shí)體鏈接

知識(shí)合并

4.2.1 實(shí)體鏈接

實(shí)體鏈接(entity linking)是指對(duì)于從文本中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。

其基本思想是首先根據(jù)給定的實(shí)體指稱項(xiàng),從知識(shí)庫(kù)中選出一組候選實(shí)體對(duì)象,然后通過(guò)相似度計(jì)算將指稱項(xiàng)鏈接到正確的實(shí)體對(duì)象。

研究歷史:

僅關(guān)注如何將從文本中抽取到的實(shí)體鏈接到知識(shí)庫(kù)中,忽視了位于同一文檔的實(shí)體間存在的語(yǔ)義聯(lián)系。

開始關(guān)注利用實(shí)體的共現(xiàn)關(guān)系,同時(shí)將多個(gè)實(shí)體鏈接到知識(shí)庫(kù)中。即集成實(shí)體鏈接(collective entity linking)

實(shí)體鏈接的流程:

從文本中通過(guò)實(shí)體抽取得到實(shí)體指稱項(xiàng);

進(jìn)行實(shí)體消歧和共指消解,判斷知識(shí)庫(kù)中的同名實(shí)體與之是否代表不同的含義以及知識(shí)庫(kù)中是否存在其他命名實(shí)體與之表示相同的含義;

在確認(rèn)知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象之后,將該實(shí)體指稱項(xiàng)鏈接到知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體。

實(shí)體消歧是專門用于解決同名實(shí)體產(chǎn)生歧義問(wèn)題的技術(shù),通過(guò)實(shí)體消歧,就可以根據(jù)當(dāng)前的語(yǔ)境,準(zhǔn)確建立實(shí)體鏈接,實(shí)體消歧主要采用聚類法。其實(shí)也可以看做基于上下文的分類問(wèn)題,類似于詞性消歧和詞義消歧。

共指消解技術(shù)主要用于解決多個(gè)指稱對(duì)應(yīng)同一實(shí)體對(duì)象的問(wèn)題。在一次會(huì)話中,多個(gè)指稱可能指向的是同一實(shí)體對(duì)象。利用共指消解技術(shù),可以將這些指稱項(xiàng)關(guān)聯(lián)(合并)到正確的實(shí)體對(duì)象,由于該問(wèn)題在信息檢索和自然語(yǔ)言處理等領(lǐng)域具有特殊的重要性,吸引了大量的研究努力。共指消解還有一些其他的名字,比如對(duì)象對(duì)齊、實(shí)體匹配和實(shí)體同義。

4.2.2 知識(shí)合并

在前面的實(shí)體鏈接中,我們已經(jīng)將實(shí)體鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象那里去了,但需要注意的是,實(shí)體鏈接鏈接的是我們從半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)那里通過(guò)信息抽取提取出來(lái)的數(shù)據(jù)。

那么除了半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)以外,我們還有個(gè)更方便的數(shù)據(jù)來(lái)源——結(jié)構(gòu)化數(shù)據(jù),如外部知識(shí)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)。

對(duì)于這部分結(jié)構(gòu)化數(shù)據(jù)的處理,就是我們知識(shí)合并的內(nèi)容啦。一般來(lái)說(shuō)知識(shí)合并主要分為兩種:

合并外部知識(shí)庫(kù),主要處理數(shù)據(jù)層和模式層的沖突

合并關(guān)系數(shù)據(jù)庫(kù),有RDB2RDF等方法

4.3 知識(shí)加工

經(jīng)過(guò)剛才那一系列步驟,我們終于走到了知識(shí)加工這一步了!

感覺大家可能已經(jīng)有點(diǎn)暈眩,那么讓我們?cè)賮?lái)看一下知識(shí)圖譜的這張架構(gòu)圖。

在前面,我們已經(jīng)通過(guò)信息抽取,從原始語(yǔ)料中提取出了實(shí)體、關(guān)系與屬性等知識(shí)要素,并且經(jīng)過(guò)知識(shí)融合,消除實(shí)體指稱項(xiàng)與實(shí)體對(duì)象之間的歧義,得到一系列基本的事實(shí)表達(dá)。

然而事實(shí)本身并不等于知識(shí)。要想最終獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識(shí)體系,還需要經(jīng)歷知識(shí)加工的過(guò)程。

知識(shí)加工主要包括3方面內(nèi)容:本體構(gòu)建、知識(shí)推理和質(zhì)量評(píng)估。

4.3.1 本體構(gòu)建

本體(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。

本體可以采用人工編輯的方式手動(dòng)構(gòu)建(借助本體編輯軟件),也可以以數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)化方式構(gòu)建本體。因?yàn)槿斯し绞焦ぷ髁烤薮?,且很難找到符合要求的專家,因此當(dāng)前主流的全局本體庫(kù)產(chǎn)品,都是從一些面向特定領(lǐng)域的現(xiàn)有本體庫(kù)出發(fā),采用自動(dòng)構(gòu)建技術(shù)逐步擴(kuò)展得到的。

自動(dòng)化本體構(gòu)建過(guò)程包含三個(gè)階段:

實(shí)體并列關(guān)系相似度計(jì)算

實(shí)體上下位關(guān)系抽取

本體的生成

比如對(duì)下面這個(gè)例子,當(dāng)知識(shí)圖譜剛得到“阿里巴巴”、“騰訊”、“手機(jī)”這三個(gè)實(shí)體的時(shí)候,可能會(huì)認(rèn)為它們?nèi)齻€(gè)之間并沒有什么差別,但當(dāng)它去計(jì)算三個(gè)實(shí)體之間的相似度后,就會(huì)發(fā)現(xiàn),阿里巴巴和騰訊之間可能更相似,和手機(jī)差別更大一些。

這就是第一步的作用,但這樣下來(lái),知識(shí)圖譜實(shí)際上還是沒有一個(gè)上下層的概念,它還是不知道,阿里巴巴和手機(jī),根本就不隸屬于一個(gè)類型,無(wú)法比較。因此我們?cè)趯?shí)體上下位關(guān)系抽取這一步,就需要去完成這樣的工作,從而生成第三步的本體。

當(dāng)三步結(jié)束后,這個(gè)知識(shí)圖譜可能就會(huì)明白,“阿里巴巴和騰訊,其實(shí)都是公司這樣一個(gè)實(shí)體下的細(xì)分實(shí)體。它們和手機(jī)并不是一類。”

4.3.2 知識(shí)推理

在我們完成了本體構(gòu)建這一步之后,一個(gè)知識(shí)圖譜的雛形便已經(jīng)搭建好了。但可能在這個(gè)時(shí)候,知識(shí)圖譜之間大多數(shù)關(guān)系都是殘缺的,缺失值非常嚴(yán)重,那么這個(gè)時(shí)候,我們就可以使用知識(shí)推理技術(shù),去完成進(jìn)一步的知識(shí)發(fā)現(xiàn)。

比如在下面這個(gè)例子里:

我們可以發(fā)現(xiàn):如果A是B的配偶,B是C的主席,C坐落于D,那么我們就可以認(rèn)為,A生活在D這個(gè)城市。

根據(jù)這一條規(guī)則,我們可以去挖掘一下在圖里,是不是還有其他的path滿足這個(gè)條件,那么我們就可以將AD兩個(gè)關(guān)聯(lián)起來(lái)。除此之外,我們還可以去思考,串聯(lián)里有一環(huán)是B是C的主席,那么B是C的CEO、B是C的COO,是不是也可以作為這個(gè)推理策略的一環(huán)呢?

當(dāng)然知識(shí)推理的對(duì)象也并不局限于實(shí)體間的關(guān)系,也可以是實(shí)體的屬性值,本體的概念層次關(guān)系等。

比如:

推理屬性值:已知某實(shí)體的生日屬性,可以通過(guò)推理得到該實(shí)體的年齡屬性;

推理概念:已知(老虎,科,貓科)和(貓科,目,食肉目)可以推出(老虎,目,食肉目)

這一塊的算法主要可以分為3大類,基于邏輯的推理、基于圖的推理和基于深度學(xué)習(xí)的推理。

4.3.3 質(zhì)量評(píng)估

質(zhì)量評(píng)估也是知識(shí)庫(kù)構(gòu)建技術(shù)的重要組成部分,這一部分存在的意義在于:可以對(duì)知識(shí)的可信度進(jìn)行量化,通過(guò)舍棄置信度較低的知識(shí)來(lái)保障知識(shí)庫(kù)的質(zhì)量。

好啦,在質(zhì)量評(píng)估之后,你是不是想說(shuō),媽耶知識(shí)圖譜終于構(gòu)建完畢了。終于可以松一口氣了。

好吧,實(shí)不相瞞,知識(shí)圖譜這個(gè)寶寶目前雖然我們構(gòu)建成功了。

但是!你家寶寶不吃飯的??!你家寶寶不學(xué)習(xí)的啊!

所以,讓我們冷靜一下,乖乖進(jìn)入知識(shí)更新這一步……

4.4 知識(shí)更新

從邏輯上看,知識(shí)庫(kù)的更新包括概念層的更新和數(shù)據(jù)層的更新。

概念層的更新是指新增數(shù)據(jù)后獲得了新的概念,需要自動(dòng)將新的概念添加到知識(shí)庫(kù)的概念層中。

數(shù)據(jù)層的更新主要是新增或更新實(shí)體、關(guān)系、屬性值,對(duì)數(shù)據(jù)層進(jìn)行更新需要考慮數(shù)據(jù)源的可靠性、數(shù)據(jù)的一致性(是否存在矛盾或冗雜等問(wèn)題)等可靠數(shù)據(jù)源,并選擇在各數(shù)據(jù)源中出現(xiàn)頻率高的事實(shí)和屬性加入知識(shí)庫(kù)。

知識(shí)圖譜的內(nèi)容更新有兩種方式:

全面更新:指以更新后的全部數(shù)據(jù)為輸入,從零開始構(gòu)建知識(shí)圖譜。這種方法比較簡(jiǎn)單,但資源消耗大,而且需要耗費(fèi)大量人力資源進(jìn)行系統(tǒng)維護(hù);

增量更新:以當(dāng)前新增數(shù)據(jù)為輸入,向現(xiàn)有知識(shí)圖譜中添加新增知識(shí)。這種方式資源消耗小,但目前仍需要大量人工干預(yù)(定義規(guī)則等),因此實(shí)施起來(lái)十分困難。

5、知識(shí)圖譜的應(yīng)用

好了!終于終于!知識(shí)圖譜的構(gòu)建方式我們就此結(jié)束了!

為了讓大家不立刻棄療,讓我們來(lái)看看知識(shí)圖譜能做到什么,以及目前已經(jīng)做到了什么~

智能搜索——也是知識(shí)圖譜最成熟的一個(gè)場(chǎng)景,自動(dòng)給出搜索結(jié)果和相關(guān)人物

構(gòu)建人物關(guān)系圖,查看更多維度的數(shù)據(jù)

反欺詐:這主要有兩部分原因,一個(gè)是反欺詐的數(shù)據(jù)來(lái)源多樣,結(jié)構(gòu)化和非結(jié)構(gòu)化,二是不少欺詐案件會(huì)涉及到復(fù)雜的關(guān)系網(wǎng)絡(luò)

不一致性驗(yàn)證(類似交叉驗(yàn)證)——關(guān)系推理

異常分析(運(yùn)算量大,一般離線)

靜態(tài)分析:給定一個(gè)圖形結(jié)構(gòu)和某個(gè)時(shí)間點(diǎn),從中去發(fā)現(xiàn)一些異常點(diǎn)(比如有異常的子圖)。

動(dòng)態(tài)分析:分析其結(jié)構(gòu)隨時(shí)間變化的趨勢(shì)。(假設(shè)短時(shí)間內(nèi)知識(shí)圖譜結(jié)構(gòu)的變化不會(huì)太大,如果它的變化很大,就說(shuō)明可能存在異常,需要進(jìn)一步的關(guān)注。會(huì)涉及到時(shí)序分析技術(shù)和圖相似性計(jì)算技術(shù)。)

失聯(lián)客戶管理 挖掘出更多的新聯(lián)系人,提高催收的成功率。

……

事實(shí)上,知識(shí)圖譜的應(yīng)用遠(yuǎn)不止于此。在我看來(lái),這個(gè)世界就是一張巨大的知識(shí)圖譜,是無(wú)數(shù)個(gè)實(shí)體關(guān)系對(duì),這兩年工業(yè)界對(duì)圖數(shù)據(jù)庫(kù)、知識(shí)圖譜的巨大需求也同樣反映出了這一點(diǎn)。

就像這篇文章開頭說(shuō)的那句一樣,

“The world is not made of strings , but is made of things.”
——辛格博士,from Google.

本文作者:薇拉
閱讀原文
本文來(lái)自云棲社區(qū)合作伙伴“阿里技術(shù)”,如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/11891.html

相關(guān)文章

  • 1.3-知識(shí)圖譜怎么去做?

    摘要:圖數(shù)據(jù)庫(kù)逐步成為目前主要的知識(shí)圖譜存儲(chǔ)方式。知識(shí)圖譜的補(bǔ)全是通過(guò)現(xiàn)有知識(shí)圖譜來(lái)預(yù)測(cè)實(shí)體之間的關(guān)系,是對(duì)關(guān)系抽取的重要補(bǔ)充。相關(guān)資料大規(guī)模知識(shí)圖譜的構(gòu)建推理及應(yīng)用肖仰華大規(guī)模知識(shí)圖譜構(gòu)建與應(yīng)用 知識(shí)圖譜怎么去做,這當(dāng)然不是幾句話說(shuō)得清楚的。首先肯定要先基于自身的業(yè)務(wù)進(jìn)行思考,這里整理一些知識(shí)圖譜構(gòu)建的主要路徑。 構(gòu)建的邏輯思路 1、梳理業(yè)務(wù),構(gòu)建本體:是否需要用知識(shí)圖譜?成本怎么樣,能...

    Martin91 評(píng)論0 收藏0
  • 最全知識(shí)圖譜綜述#1: 概念以及構(gòu)建技術(shù)

    摘要:本質(zhì)上知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系其構(gòu)成一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成。圖知識(shí)圖譜示例知識(shí)圖譜的架構(gòu)知識(shí)圖譜的架構(gòu)包括自身的邏輯結(jié)構(gòu)以及構(gòu)建知識(shí)圖譜所采用的技術(shù)體系架構(gòu)。 引言隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容呈現(xiàn)爆炸式增長(zhǎng)的態(tài)勢(shì)。由于互聯(lián)網(wǎng)內(nèi)容的大規(guī)模、異質(zhì)多元、組織結(jié)構(gòu)松散的特點(diǎn),給人們有效獲取信息和知識(shí)提出了挑戰(zhàn)。知識(shí)圖譜(Know...

    wujl596 評(píng)論0 收藏0
  • 前端每周清單第 40 期: JS 的 Core 與 Cost,Node 內(nèi)存溢出調(diào)試,Softwar

    摘要:已被所有主流瀏覽器支持在過(guò)去幾周蘋果的瀏覽器與微軟的瀏覽器分別發(fā)布新版本,支持了,再加上早已支持的和,已得到所有主流瀏覽器支持。 showImg(https://segmentfault.com/img/remote/1460000012086220?w=1240&h=823); 前端每周清單第 40 期: JS 的 Core 與 Cost,Node 內(nèi)存溢出調(diào)試,Software 2...

    番茄西紅柿 評(píng)論0 收藏0
  • 知識(shí)圖譜是什么?一文了解其技術(shù)與應(yīng)用場(chǎng)景案例

    摘要:四知識(shí)圖譜應(yīng)用利用知識(shí)圖譜技術(shù)可以直接給出用戶想要的搜索結(jié)果,而不再是各類鏈接。智慧城市公安機(jī)關(guān)在偵查案件時(shí),經(jīng)??吹睫k案民警用圖譜梳理案件及人物關(guān)系。在電視劇人民的名義中,警方利用知識(shí)圖譜分析,可以很快看清山水集團(tuán)背后的利益鏈條。 導(dǎo)讀:悟已往之不諫,知來(lái)者之可追。 ?小編整理了各種關(guān)于人...

    tomato 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<