摘要:前言模型作用為提取三元組,基于英文,目前嘗試改為中文。論文題目名稱叫代碼地址論文核心論文核心主要解決個問題,一個是基于動詞結構之外的三元組提取,例如形容詞等,二是基于上下文的三元組提取,舉例說明。
前言:
模型作用為提取三元組,基于英文,目前嘗試改為中文。
論文題目名稱叫《Open Language Learning for Information Extraction》,代碼地址:https://github.com/knowitall/...
論文核心:
論文核心主要解決2個問題,一個是基于動詞結構之外的三元組提取,例如形容詞等,二是基于上下文的三元組提取,舉例說明。這里論文與reverb和woe兩種抽取方式做比較。
在1-3句話中,基于reverb和woe的提取為none,即什么也提取不到。但基于ollie,其可以提取到,也就是解決了reverb和woe的第一個缺點。
舉例說明一下:例如第一句Saint 贏了超級杯后,就成了美國橄欖球聯(lián)盟的頂級球員。 這句話里沒有動詞,所以reverb和woe什么都提取不到。
在4-5句中,ollie是基于上下文的抽取,所以reverb和woe的抽取只能抽到地球是宇宙的中心,但無法抽到eraly astronmers,而ollie能夠抽到attributedto。
舉例:在很早以前人們認為地球是宇宙的中心,reverb和woe提取的是地球是宇宙中心,這顯然不對。而ollie可以提取到AttributedTo相信;早期的天文學家。
以上兩點取自論文Introduction。
如何做的:
1.擴展關系短語的句法范圍,以涵蓋更多的關系表達式。
2.擴大開放即表示允許額外的上下文信息,如歸因和子句的修飾符
具體做法:
(1)構造一個引導集,這個引導集是基于一個網絡數據,利用reverb 挖掘了11萬的高可信度的seed—tuples,至于利用reverb能extract什么鬼,我也沒去看reverb的論文,就姑且認為是一個種子三元組集合吧。
舉例:Paul Annacone is the coach of Federer. Reverb:(Paul Annacone; is the coach of; Federer)
而對于每一個得到的seed-tuple,例如(Paul Annacone; is the coach of; Federer),模型會對數據集進行遍歷檢索,這樣獲得所有有關與Federer、Paul、Annacone或者和coach有關語法變化的句子。例如Now coached by Annacone, Federer is winning more titles than ever。
而在這種情況下,會存在類似如下的問題,例如三元組為:Boyle; is born in; Ireland,而我們找到的句子為Wharton was born in Donegal, in the northwest of Ireland, a county where the Boyles did their schooling。中文翻譯:沃頓出生于愛爾蘭西北部的多尼哥,波伊爾一家就是在那里上學的。
你會發(fā)現(xiàn)后半句‘波伊爾一家就是在那里上學的’與seed-tuples完全沒有關系。為解決這個問題,我們在檢索時加入依賴,具體為:
找到某句話的實體詞為三元組包含的詞,對其進行依賴分析,如果依賴分析的依賴路徑超過4,則丟掉這句話。所以在Wharton was born in Donegal, in the northwest of Ireland, a county where the Boyles did their schooling這句話中,born、ireland、boyles的依賴路徑超過4,論文說是6,具體算法要看依賴分析,這里不探究,則丟棄這句話不做訓練集。
(2)在準備訓練集后,就是更多一般關系表達方式的學習。而怎樣理解這種開放模板,論文給出的定義為a mapping from a dependency path to an open extraction,也就是一個從依存路徑到開放挖掘的映射。舉例如下:
(arg1; be {rel} {prep}; arg2) {arg1} ↑nsubjpass↑ {rel:postag=VBN} ↓{prep ?}↓ {arg2}
(arg1; {rel}; arg2) {arg1} ↑nsubj↑ {rel:postag=VBD} ↓dobj↓ {arg2}
(arg1; be {rel} by; arg2) {arg1} ↑nsubjpass↑ {rel:postag=VBN} ↓agent↓ {arg2}
(arg1; be {rel} of; arg2) {rel:postag=NN;type=Person} ↑nn↑ {arg1} ↓nn↓ {arg2}
(arg1; be {rel} {prep}; arg2) {arg1} ↑nsubjpass↑ {slot:postag=VBN;lex ∈announce|name|choose...}
↓dobj↓ {rel:postag=NN} ↓{prep ?}↓ {arg2}
上述例子第一列為提取的三元組,第二列為依存分析的表示,例如句2如果填充(arg1; {rel}; arg2)為(Godse; kill; Gandhi) ,則依存分析表示為{arg1} ↑nsubj↑ {rel:postag=VBD} ↓dobj↓ {arg2},nsubj和dobj分別代表名詞主語和直接賓語。
而如何獲得上述格式的數據呢,論文寫的實在別扭,大體可分為3步。
首先,基于seed-tuples和與seed-tuples有關聯(lián)的句子,我們提取依存路徑和三元組表示,對依賴路徑中的關系節(jié)點用正確的關系詞和詞性標注去注釋,將‘is’/‘was’/‘will be’ 都改為 ‘be’,并且用{rel}替換關系詞。
然后執(zhí)行幾個約束檢查,包括:
(1)沒有槽節(jié)點,槽節(jié)點的定義為不屬于當前seed-tuple的節(jié)點。例如‘hired’ is a slot word for the tuple (Annacone; is the coach of; Federer) in the sentence “Federer hired Annacone as a coach”. (2)關系節(jié)點在2個實體中間 (3)介詞相配 (4)沒有nn或amdo詞性的詞
在進行了約束檢查后,會將數據分為兩部分,一部分是滿足上述檢查的,一部分是不滿足的。然后再進行數據的處理,處理完畢后數據樣式見1-5.其中1-3為滿足約束檢查的處理方式,4、5為額外處理的。距離見論文3.2.1和3.2.2。
接下來是提取模式匹配:
直接舉例說明:I learned that the 2012 Sasquatch music festival is scheduled for May 25th until May 28th。(我了解到2012年的Sasquatch音樂節(jié)定在5月25日到5月28日),基于figure1,我們得到(festival, be scheduled for, 25th),但對于ollie,這顯然還不夠,論文中提到對于arg,其擴展了amod, nn, det, neg, prep , num, quantmod來擴展名詞短語,而當base名詞(不知道為什么有這個鬼,個人理解就是arg)不是專有名詞,還擴展了rcmod, infmod, partmod, ref, prepc ,這里作者認為這些非專有名詞包含很多的重要信息。對于rel,擴展了advmod, mod, aux, auxpass, cop, prt edges。
但是具體怎么擴展的,論文中關鍵點并未給出.給個圖自己琢磨吧——
最后,是關于ollie的上下文分析,例如句子4中的地球是宇宙中心明顯不對,但加上早期認為地球是中心,則對了。
而提取這些限制條件的方式也是基于句子關系的依存分析解析句子結構。
例如,在第4句的語法中,“believe”和“center”之間有一個從句補充。我們首先檢查存在的從句補充邊緣節(jié)點的關系。然而,并不是所有從句補充都是屬性。我們將上下文動詞(例如,“believe”)與來自VerbNet的交流和認知動詞列表匹配,以檢測屬性。然后,上下文謂詞及其主語填充AttributedTo字段。
同樣,小句修飾語也用狀語從句標記。我們按詞法過濾這些詞,并在子句的第一個單詞匹配使用訓練集創(chuàng)建的16個術語列表時添加一個ClausalModifier字段:{if, when, although, because,…}。
OLLIE對于AttributedTo和ClausalModifier字段具有很高的精確度,在一個開發(fā)集中,這兩個字段的精確度接近98%,但是,這兩個字段并不能涵蓋所有提取沒有被斷言為事實的情況。為了處理其他問題,我們訓練奧利的置信度函數來降低提取的置信度,如果提取的上下文表明它可能是不真實的。
我們使用監(jiān)督邏輯回歸分類器對置信函數進行分類。特征包括提取模式的頻率、定語或修飾語字段的存在,以及提取上下文中某些單詞的位置,如虛詞或用于定語字段的交際和認知動詞。例如,當沒有附加ClausalModifier字段時,一個高度預測性的特性測試“if”是否出現(xiàn)在提取之前。
關于斯坦福依存分析句法的鏈接:https://blog.csdn.net/glory12...
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/75148.html
摘要:是你學習從入門到專家必備的學習路線和優(yōu)質學習資源。的數學基礎最主要是高等數學線性代數概率論與數理統(tǒng)計三門課程,這三門課程是本科必修的。其作為機器學習的入門和進階資料非常適合。書籍介紹深度學習通常又被稱為花書,深度學習領域最經典的暢銷書。 showImg(https://segmentfault.com/img/remote/1460000019011569); 【導讀】本文由知名開源平...
摘要:本質上知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系其構成一張巨大的語義網絡圖,節(jié)點表示實體或概念,邊則由屬性或關系構成。圖知識圖譜示例知識圖譜的架構知識圖譜的架構包括自身的邏輯結構以及構建知識圖譜所采用的技術體系架構。 引言隨著互聯(lián)網的發(fā)展,網絡數據內容呈現(xiàn)爆炸式增長的態(tài)勢。由于互聯(lián)網內容的大規(guī)模、異質多元、組織結構松散的特點,給人們有效獲取信息和知識提出了挑戰(zhàn)。知識圖譜(Know...
摘要:康納爾大學數學博士博士后則認為,圖神經網絡可能解決圖靈獎得主指出的深度學習無法做因果推理的核心問題。圖靈獎得主深度學習的因果推理之殤年初,承接有關深度學習煉金術的辯論,深度學習又迎來了一位重要的批評者。 作為行業(yè)的標桿,DeepMind的動向一直是AI業(yè)界關注的熱點。最近,這家世界最較高級的AI實驗室似乎是把他們的重點放在了探索關系上面,6月份以來,接連發(fā)布了好幾篇帶關系的論文,比如:關系歸...
摘要:單層年發(fā)表的文章使用了單層解決機器翻譯中不同長度的源語言對齊問題。使用的基本思想是目標語言端的詞往往只與源語言端部分詞相關。其中計算上下文環(huán)境與源語言詞語的相關得分,是根據語言特性設計的一個對齊模型,感興趣的朋友可以深入了解一下。 1. 前言2017 年 KDD,Sigir 以及 Recsys 會議被接收的論文早已公示,本文對這些會議中 Attention Model 相關的 10 篇論文進...
閱讀 1601·2019-08-30 13:18
閱讀 1583·2019-08-29 12:19
閱讀 2127·2019-08-26 13:57
閱讀 4151·2019-08-26 13:22
閱讀 1192·2019-08-26 10:35
閱讀 2997·2019-08-23 18:09
閱讀 2517·2019-08-23 17:19
閱讀 689·2019-08-23 17:18