成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

spaCy:如何使用最快的NLP開發(fā)庫結(jié)合Keras來進行深度學習

BlackFlagBin / 1825人閱讀

摘要:導讀工程師可用使用很多工具庫來進行自然語言處理,比如等等,在這么多選擇中,也許是所有人的推薦。版的終于發(fā)布了,它是世界上最快的自然語言處理庫。在本文中,我們將使用,因為它是更受歡迎的深度學習庫。

導讀:工程師可用使用很多工具庫來進行自然語言處理,比如 NLTK/CoreNLP/OpenNLP/Rosette/OpenIE 等等,在這么多選擇中,spaCy 也許是所有人的推薦。

1.0 版的 spaCy 終于發(fā)布了,它是世界上最快的自然語言處理 NLP 庫。 到目前為止,1.0 版的較好的特性是將定制化的模型集成到 spaCy 新系統(tǒng)中。 本文將向您介紹這些新特性,并向您展示如何使用新的自定義管道功能將 Keras 提供的 LSTM 情感分析模型添加到 spaCy 管道中。

之前的 spaCy 用戶調(diào)查已經(jīng)收到了很多對程序庫的反饋。 最顯而易見的是 spaCy 需要更多教程文檔。 我們目前正在為該網(wǎng)站制作一個新的并改進的教程。 同時優(yōu)先考慮新的 1.0 功能的教程,比如新的規(guī)則,實體感知匹配器,模型訓練 API 和自定義管道。

自定義管道是特別令人興奮的,因為他們你整合自己的深度學習模型進 spaCy。 所以,這里將說明如何使用 Keras 來訓練 LSTM 情感分析模型,怎樣使用 spaCy 的結(jié)果的注解。

如何在 spacy 中使用 Keras LSTM 模型來進行情感分析

有許多偉大的開源庫用于研究,訓練和評估神經(jīng)網(wǎng)絡。然而,這些庫關注的問題通常止步于評估得分和模型文件。spaCy 一直被設計為協(xié)調(diào)多個文本注釋模型,并幫助您在應用程序中一起使用它們。 spaCy 1.0 現(xiàn)在使用自己的自定義模型更容易計算這些注釋。

在本文中,我們將使用 Keras,因為它是 Python 更受歡迎的深度學習庫。讓我們假設你寫了一個自定義情感分析模型來預測文檔是正面還是負面情緒?,F(xiàn)在,您想要找到哪些實體通常與正面情緒文檔或負面情緒文檔相關聯(lián)。這里有一個快速示例,可以看到運行時。

你需要做的是傳遞一個create_pipeline 回調(diào)函數(shù)到 spacy.load()。 該函數(shù)應該使用 spacy.language.Language 對象作為其的參數(shù),并返回一系列可調(diào)用對象。 每個可調(diào)用對象都應該接受一個 Doc 對象,對其進行修改,并返回None。

對單個文檔的操作是低效的,特別是對于深度學習模型。通常我們要注釋許多文本,并且我們想要并行處理它們。因此,您應該確保模型組件還支持.pipe()方法。.pipe()方法應該是一個良好的生成器函數(shù),可以對任意大的序列進行操作。 pipe函數(shù)使用小文檔緩沖區(qū),并行處理它們,并一個一個地產(chǎn)生它們。

默認情況下,spaCy 1.0下載并使用 300 維 GloVe(Global Vectors for Word Representation 詞表達全局向量)common crawl 向量。 也很容易用你自己訓練的向量替換這些向量,或者完全禁用詞向量(word vectors)。 如果你已經(jīng)將你的詞向量安裝到 spaCy 的 Vocab 對象中,下面介紹如何在 Keras 模型中使用它們:

對于大多數(shù)應用程序,我建議使用預先訓練的詞嵌入(word embeddings,給出一個文檔,文檔就是一個單詞序列比如 “A B A C B F G”, 希望對文檔中每個不同的單詞都得到一個對應的向量(往往是低維向量)表示)而不進行“微調(diào)”。 這意味著您將在不同的模型中使用相同的embeddings,并避免learning過程對您的訓練數(shù)據(jù)進行調(diào)整。embeddings 表是大表,并且由預訓練向量提供的值已經(jīng)相當好。因此,微調(diào)嵌入表是浪費您的“參數(shù)預算”。通常較好使用其他方式擴大您的網(wǎng)絡,例如通過添加另一個 LSTM 層,使用注意機制,使用字符特征等。

屬性鉤子(實驗性質(zhì))

早些時候,我們看到了如何在新的通用user_data dict中存儲數(shù)據(jù)。這可以接受,但不令人滿意。理想情況下,我們希望讓自定義數(shù)據(jù)驅(qū)動更多的“本地”行為。例如,考慮由spaCy的Doc,Token和Span對象提供的.similarity()方法:

默認情況下,這只是平均每個文檔的向量,并計算其余弦。一般說來,spaCy 使你很容易安裝自己的相似模型。這引入了棘手的設計挑戰(zhàn)。當前的解決方案是向 Doc 對象添加三個 diction:

總而言之,這里是一個在自定義 .similarity() 方法中掛鉤的例子:

下一步

屬性鉤子很可能會略微演變,并且肯定需要一些調(diào)整來達到完全一致。我也期待為標記器,解析器和實體識別器改進模型。在過去的十二個月中,研究表明,雙向 LSTM 模型是這些任務的簡單和有效的方法。結(jié)果模型耗費的內(nèi)存也明顯更小。

參考代碼:

https://github.com/explosion/spaCy/blob/master/examples/deep_learning_keras.py

英文原文:

https://explosion.ai/blog/spacy-deep-learning-keras

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4432.html

相關文章

  • 15個Python,讓你學習數(shù)據(jù)科學更輕松

    摘要:在本節(jié)中,我們將看到一些最流行和最常用的庫,用于機器學習和深度學習是用于數(shù)據(jù)挖掘,分析和機器學習的最流行的庫。愿碼提示網(wǎng)址是一個基于的框架,用于使用多個或進行有效的機器學習和深度學習。 showImg(https://segmentfault.com/img/remote/1460000018961827?w=999&h=562); 來源 | 愿碼(ChainDesk.CN)內(nèi)容編輯...

    W4n9Hu1 評論0 收藏0
  • Keras之父:大多數(shù)深度學習論文都是垃圾,炒作AI危害很大

    摘要:問深度學習社區(qū)現(xiàn)在面臨的主要挑戰(zhàn)是什么答打擊炒作發(fā)展倫理意識獲得科學嚴謹性。深度學習簡直是科學的重災區(qū)。 Keras之父、谷歌大腦人工智能和深度學習研究員Fran?ois Chollet撰寫了一本深度學習Python教程實戰(zhàn)書籍《Python深度學習》,書中介紹了深度學習使用Python語言和強大Keras庫,詳實新穎。近日,F(xiàn)ran?ois Chollet接受了采訪,就深度學習到底是什么、...

    RyanHoo 評論0 收藏0
  • 23種深度學習排行榜:TensorFlow最活躍、Keras最流行

    摘要:我們對種用于數(shù)據(jù)科學的開源深度學習庫作了排名。于年月發(fā)布了第名,已經(jīng)躋身于深度學習庫的上半部分。是最流行的深度學習前端第位是排名較高的非框架庫。頗受對數(shù)據(jù)集使用深度學習的數(shù)據(jù)科學家的青睞。深度學習庫的完整列表來自幾個來源。 我們對23種用于數(shù)據(jù)科學的開源深度學習庫作了排名。這番排名基于權(quán)重一樣大小的三個指標:Github上的活動、Stack Overflow上的活動以及谷歌搜索結(jié)果。排名結(jié)果...

    princekin 評論0 收藏0
  • 重磅 | 完備 AI 學習路線,最詳細資源整理!

    摘要:是你學習從入門到專家必備的學習路線和優(yōu)質(zhì)學習資源。的數(shù)學基礎最主要是高等數(shù)學線性代數(shù)概率論與數(shù)理統(tǒng)計三門課程,這三門課程是本科必修的。其作為機器學習的入門和進階資料非常適合。書籍介紹深度學習通常又被稱為花書,深度學習領域最經(jīng)典的暢銷書。 showImg(https://segmentfault.com/img/remote/1460000019011569); 【導讀】本文由知名開源平...

    荊兆峰 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<