摘要:自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。自然語(yǔ)言處理無可避免地成為信息科學(xué)技術(shù)中長(zhǎng)期發(fā)展的一個(gè)新的戰(zhàn)略制高點(diǎn)。
自然語(yǔ)言處理(NLP)是計(jì)算機(jī)科學(xué),人工智能,語(yǔ)言學(xué)關(guān)注計(jì)算機(jī)和人類(自然)語(yǔ)言之間的相互作用的領(lǐng)域。自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語(yǔ)言,即人們?nèi)粘J褂玫恼Z(yǔ)言,所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。
自然語(yǔ)言處理技術(shù)是所有與自然語(yǔ)言的計(jì)算機(jī)處理有關(guān)的技術(shù)的統(tǒng)稱,其目的是使計(jì)算機(jī)理解和接受人類用自然語(yǔ)言輸入的指令,完成從一種語(yǔ)言到另一種語(yǔ)言的翻譯功能,自然語(yǔ)言處理技術(shù)的研究,可以豐富計(jì)算機(jī)知識(shí)處理的研究?jī)?nèi)容,推動(dòng)人工智能技術(shù)的發(fā)展。
大快NLP模塊是大快大數(shù)據(jù)一體化平臺(tái)的一個(gè)組件,用戶引用該組件可以有效進(jìn)行自然語(yǔ)言的處理工作,如進(jìn)行文章摘要,語(yǔ)義判別以及提高內(nèi)容檢索的精確度和有效性。
自然語(yǔ)言處理如今不僅作為人工智能核心課題來研究,而且也作為新一代計(jì)算機(jī)的核心課題來研究。從知識(shí)產(chǎn)業(yè)角度看,專家系統(tǒng),數(shù)據(jù)庫(kù),知識(shí)庫(kù),計(jì)算機(jī)輔助設(shè)計(jì)系統(tǒng)(CAD)、計(jì)算機(jī)輔助教學(xué)系統(tǒng)(CAI)、計(jì)算機(jī)輔助決策系統(tǒng),辦公室自動(dòng)化管理系統(tǒng),智能機(jī)器人等,都需要用自然語(yǔ)言處理,具有篇章理解能力的自然語(yǔ)言理解系統(tǒng)可用于機(jī)器自動(dòng)翻譯、情報(bào)檢索、自動(dòng)標(biāo)引、自動(dòng)文摘、自動(dòng)寫故事小說等領(lǐng)域,都可以用我們的工具類DKNLPBase來處理。
標(biāo)準(zhǔn)分詞
方法簽名:List
返回:分詞列表。
簽名參數(shù)說明:txt:要分詞的語(yǔ)句。
范例:下例驗(yàn)證一段話第5個(gè)分詞是阿法狗。
public void testSegment() throws Exception
{ String text = "商品和服務(wù)"; ListtermList = DKNLPBase.segment(text); assertEquals("商品", termList.get(0).word); assertEquals("和", termList.get(1).word); assertEquals("服務(wù)", termList.get(2).word); text = "柯杰解說“李世石VS阿法狗第二局” 結(jié)局竟是這樣"; termList = DKNLPBase.segment(text); assertEquals("阿法狗", termList.get(5).word); // 能夠識(shí)別"阿法狗"
}
關(guān)鍵詞提取
方法簽名:List
返回:關(guān)鍵詞列表.
簽名參數(shù)說明:txt:要提取關(guān)鍵詞的語(yǔ)句,keySum要提取關(guān)鍵詞的數(shù)量
范例:給出一段話提取一個(gè)關(guān)鍵詞是“程序員”。
public void testExtractKeyword() throws Exception
{ String content = "程序員(英文Programmer)是從事程序開發(fā)、維護(hù)的專業(yè)人員。" + "一般將程序員分為程序設(shè)計(jì)人員和程序編碼人員," + "但兩者的界限并不非常清楚,特別是在中國(guó)。" + "軟件從業(yè)人員分為初級(jí)程序員、高級(jí)程序員、系統(tǒng)" + "分析員和項(xiàng)目經(jīng)理四大類。"; Listkeyword = DKNLPBase.extractKeyword(content, 1); assertEquals(1, keyword.size()); assertEquals("程序員", keyword.get(0)); }
短語(yǔ)提取
方法簽名:List
返回:短語(yǔ)
簽名參數(shù)說明:txt:要提取短語(yǔ)的語(yǔ)句,phSum短語(yǔ)數(shù)量
范例:給出一段文字,能代表文章的五個(gè)短語(yǔ),第一個(gè)短語(yǔ)是算法工程師。
邁進(jìn)二十一世紀(jì),我們已經(jīng)進(jìn)入了以互聯(lián)網(wǎng)為主要標(biāo)志的海量信息時(shí)代,這些海量信息大部分是以自然語(yǔ)言表示的。一方面,海量信息也為計(jì)算機(jī)學(xué)習(xí)人類語(yǔ)言提供了更多的“素材”,另一方面,這也為自然語(yǔ)言處理提供了更加寬廣的應(yīng)用舞臺(tái)。例如,作為自然語(yǔ)言處理的重要應(yīng)用,搜索引擎逐漸成為人們獲取信息的重要工具,涌現(xiàn)出以百度、谷歌等為代表的搜索引擎巨頭;機(jī)器翻譯也從實(shí)驗(yàn)室走入尋常百姓家,谷歌、百度等公司都提供了基于海量網(wǎng)絡(luò)數(shù)據(jù)的機(jī)器翻譯和輔助翻譯工具;基于自然語(yǔ)言處理的中文(輸入法如搜狗、微軟、谷歌等輸入法)成為計(jì)算機(jī)用戶的必備工具;帶有語(yǔ)音識(shí)別的計(jì)算機(jī)和手機(jī)也正大行其道,協(xié)助用戶更有效地工作學(xué)習(xí)??傊S著互聯(lián)網(wǎng)的普及和海量信息的涌現(xiàn),自然語(yǔ)言處理正在人們的日常生活中扮演著越來越重要的作用。
然而,我們同時(shí)面臨著一個(gè)嚴(yán)峻事實(shí),那就是如何有效利用海量信息已成為制約信息技術(shù)發(fā)展的一個(gè)全局性瓶頸問題。自然語(yǔ)言處理無可避免地成為信息科學(xué)技術(shù)中長(zhǎng)期發(fā)展的一個(gè)新的戰(zhàn)略制高點(diǎn)。同時(shí),人們逐漸意識(shí)到,單純依靠統(tǒng)計(jì)方法已經(jīng)無法快速有效地從海量數(shù)據(jù)中學(xué)習(xí)語(yǔ)言知識(shí),只有同時(shí)充分發(fā)揮基于規(guī)則的理性主義方法和基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的各自優(yōu)勢(shì),兩者互相補(bǔ)充,才能夠更好、更快地進(jìn)行自然語(yǔ)言處理。 自然語(yǔ)言處理作為一個(gè)年齡尚不足一個(gè)世紀(jì)的新興學(xué)科,正在進(jìn)行著突飛猛進(jìn)的發(fā)展?;仡欁匀徽Z(yǔ)言處理的發(fā)展歷程,并不是一帆風(fēng)順,有過低谷,也有過高潮。而現(xiàn)在我們正面臨著新的挑戰(zhàn)和機(jī)遇。例如,目前網(wǎng)絡(luò)搜索引擎基本上還停留在關(guān)鍵詞匹配,缺乏深層次的自然語(yǔ)言處理和理解。語(yǔ)音識(shí)別、文字識(shí)別、問答系統(tǒng)、機(jī)器翻譯等目前也只能達(dá)到很基本的水平。路漫漫其修遠(yuǎn)兮,自然語(yǔ)言處理作為一個(gè)高度交叉的新興學(xué)科,不論是探究自然本質(zhì)還是付諸實(shí)際應(yīng)用,在將來必定會(huì)有令人期待的驚喜和異常快速的發(fā)展。?
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/72157.html
摘要:編者按許式偉,七牛云,社區(qū)發(fā)起人,語(yǔ)言專家,著有國(guó)內(nèi)第一本語(yǔ)言圖書語(yǔ)言編程。唯一有關(guān)系的是,是云計(jì)算行業(yè)的技術(shù)大會(huì),七牛是云計(jì)算公司。不少程序員喜歡把語(yǔ)言看做陣營(yíng)。 showImg(https://segmentfault.com/img/bVsmVr); 編者按:許式偉,七牛云 CEO , ECUG 社區(qū)發(fā)起人, Go 語(yǔ)言專家,著有國(guó)內(nèi)第一本 Go 語(yǔ)言圖書《 Go 語(yǔ)言編程》。有...
摘要:在云計(jì)算剛進(jìn)入中國(guó)的時(shí)候,成功地把握住了職業(yè)轉(zhuǎn)型的機(jī)會(huì),在實(shí)踐中成長(zhǎng)為優(yōu)秀的架構(gòu)師。技術(shù)人攻略在工作中遇到最大的挑戰(zhàn)是什么做云計(jì)算的難點(diǎn)在什么地方挑戰(zhàn)最大的是在工作的時(shí)候,要從頭到尾搭一套以為基礎(chǔ)的云計(jì)算平臺(tái)。 showImg(https://segmentfault.com/img/remote/1460000006889503); 導(dǎo)語(yǔ):本期采訪對(duì)象李雨來@Blackte...
摘要:兩個(gè)獨(dú)立的層即使這種技術(shù)風(fēng)靡全球之后,前端工程師的主要工作也都是局限于瀏覽器窗口之內(nèi)的。這是目前最主流的一種前后端分工方式帶來的改變一發(fā)布,立刻在前端工程師中引起了軒然大波,前端工程師們幾乎立刻對(duì)這一項(xiàng)技術(shù)表露出了相當(dāng)大的熱情和期待。 轉(zhuǎn)載自:http://www.w3ctech.com/topic/37 原 文: https://www.nczonline.net/blog/201...
摘要:介紹過去幾年一直是人工智能愛好者和機(jī)器學(xué)習(xí)專業(yè)人士的夢(mèng)想之旅。各國(guó)現(xiàn)在都有專門的人工智能部門和預(yù)算,以確保他們?cè)谶@場(chǎng)比賽中保持相關(guān)性。對(duì)于沒有經(jīng)驗(yàn)的人來說,它代表通用語(yǔ)言模型的微調(diào)。的不少專家聲稱的發(fā)布標(biāo)志著進(jìn)入了新時(shí)代。 showImg(https://segmentfault.com/img/remote/1460000019124432); 介紹 過去幾年一直是人工智能愛好者和機(jī)...
閱讀 1328·2023-04-26 01:28
閱讀 2084·2021-11-08 13:28
閱讀 2331·2021-10-12 10:17
閱讀 2308·2021-09-28 09:46
閱讀 4154·2021-09-09 09:33
閱讀 3734·2021-09-04 16:40
閱讀 1122·2019-08-29 15:21
閱讀 2700·2019-08-26 17:17