摘要:導(dǎo)讀前面兩篇我們介紹了技術(shù)在宜信應(yīng)用的背景敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐背景篇,以及應(yīng)用場景之一敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐智能聊天機(jī)器人篇。這就是我們實(shí)現(xiàn)的一個實(shí)時用戶畫像處理流程。
導(dǎo)讀:
前面兩篇我們介紹了NLP技術(shù)在宜信應(yīng)用的背景《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【背景篇】》,以及應(yīng)用場景之一《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【智能聊天機(jī)器人篇】》。本篇為另一個場景,也就是在業(yè)務(wù)中如何構(gòu)建客戶畫像,敬請收看~
作者簡介井玉欣:畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院,獲博士學(xué)位,研究方向包括計(jì)算機(jī)軟件與理論、邏輯推理等,目前就職于宜信技術(shù)研發(fā)中心,從事人工智能、機(jī)器學(xué)習(xí)、自然語言處理以及知識工程等方面的研究。
高級場景之構(gòu)建客戶畫像在許多企業(yè)中,每天業(yè)務(wù)人員和客戶的溝通都會產(chǎn)生大量記錄,這些記錄可能包括了客服的溝通數(shù)據(jù)(通話記錄、通話小結(jié)),也可能包括了各式各樣的報(bào)告數(shù)據(jù)(陪訪報(bào)告、征信報(bào)告等)(見圖1)。
圖1 業(yè)務(wù)人員與客戶產(chǎn)生溝通記錄
前者可能口語會多一些,后者則主要是書面用語。但兩者之間有一個共同的特點(diǎn),就是其中都蘊(yùn)含著豐富的客戶信息。想要把這些信息提取出來,我們就需要利用到(NLP)技術(shù)。
圖2為一段客戶陪訪報(bào)告的節(jié)選,觀察其文本特征,發(fā)現(xiàn)有許多業(yè)務(wù)所關(guān)注的信息,比如職業(yè)方面,客戶是“大學(xué)教授”;在可投資產(chǎn)方面,理財(cái)金額有“100萬”,投資類型是“銀行理財(cái)”,對公司的態(tài)度是“不了解”等。
圖2 客戶陪訪報(bào)告示例
所以我們完全可以通過NLP分析文本,對其中的客戶特征進(jìn)行標(biāo)簽化提取,最終利用得到的標(biāo)簽構(gòu)建出客戶畫像。這樣做的好處很多,比如方便我們的業(yè)務(wù)人員隨時發(fā)現(xiàn)關(guān)鍵問題,便于跟進(jìn);自動化處理,提高工作效率。根據(jù)挖掘出的信息構(gòu)建出客戶標(biāo)簽畫像之后,就可以方便地盤點(diǎn)特定時間范圍內(nèi)的需求特點(diǎn),為新產(chǎn)品設(shè)置提供系數(shù)參考,或者補(bǔ)充、驗(yàn)證結(jié)構(gòu)化字段內(nèi)容。
總體的實(shí)施路線如圖3所示,先通過業(yè)務(wù)分析來定義業(yè)務(wù)關(guān)注的標(biāo)簽庫,然后針對定義出來的標(biāo)簽訓(xùn)練相應(yīng)的提取模型,最后利用模型對數(shù)據(jù)進(jìn)行分析,得到一系列客戶標(biāo)簽,再對其進(jìn)行匯總,最終形成客戶畫像。
圖3 總體實(shí)施路線
總體的路線是這樣的,但具體的實(shí)施過程中我們也有一些細(xì)節(jié)需要關(guān)注。通過對之前的數(shù)據(jù)進(jìn)行分析,我們發(fā)現(xiàn)了一些特征,比如文本之中信息高度集中,信息表述通常以短句為單位,但是單一短句語義存在模糊性,還需要結(jié)合一定的上下文對其進(jìn)行分析。所以我們需要對復(fù)雜句進(jìn)行適當(dāng)?shù)那懈?,確定合適的數(shù)據(jù)粒度,同時配合一個適當(dāng)大小的短句滑動窗口來捕獲相關(guān)的上下文語義。
此外對于內(nèi)部的業(yè)務(wù)文本來說,其內(nèi)容涉及大量產(chǎn)品的專有實(shí)體名稱和術(shù)語,以及較多的數(shù)字。針對這種情況,我們建立了專門的詞庫和實(shí)體庫,對相應(yīng)的實(shí)體名稱和術(shù)語進(jìn)行準(zhǔn)確的切割和識別。對于數(shù)字的處理,我們先后比較字向量、標(biāo)識符替換、規(guī)則識別+后處理等等技術(shù)方案,并且選擇了其中效果最好的方法。
當(dāng)然我們也面臨著普遍存在的標(biāo)注語料不足的問題,因此在這個項(xiàng)目中,我們側(cè)重于研究怎么在小樣本條件下進(jìn)行Few-shot learning。
實(shí)際中,在大多數(shù)專業(yè)領(lǐng)域AI項(xiàng)目實(shí)施過程中,都存在著標(biāo)注數(shù)據(jù)不足的情況,所以針對小樣本進(jìn)行學(xué)習(xí)的Few-shot learning也越來越凸顯其重要性。Few-shot learning包括很多種技術(shù),有常見的遷移學(xué)習(xí)+fine-tuning技術(shù),典型的如Bert;也有基于半監(jiān)督訓(xùn)練的一些技術(shù),如基于相似性度量的一些神經(jīng)網(wǎng)絡(luò)模型,基于最近鄰算法的樣本標(biāo)注擴(kuò)散這些技術(shù)等;還有meta learning的相關(guān)技術(shù),例如OpenAI在ICLR 2018上的best paper;甚至還有一些圖網(wǎng)絡(luò)的相關(guān)技術(shù)。
在以上種種技術(shù)當(dāng)中,比較適合工程化的、比較容易實(shí)施的還是基于遷移學(xué)習(xí)的方法。在我們的項(xiàng)目中,發(fā)現(xiàn)遷移學(xué)習(xí),也就是基于預(yù)訓(xùn)練模型,遷移到目標(biāo)訓(xùn)練任務(wù)上,再加上半監(jiān)督學(xué)習(xí)的標(biāo)注輔助,可以比較好的滿足我們的需求。
下面介紹一下我們的算法流程:
先對復(fù)雜句進(jìn)行清洗與切割;之后可以選擇性的加入一些過濾規(guī)則,快速地去除那些比較明顯的噪音數(shù)據(jù);然后將數(shù)據(jù)流入到標(biāo)簽提取模型之中,得到具體的標(biāo)簽;最后在畫像構(gòu)建階段對得到的所有標(biāo)簽進(jìn)行去重、消歧,形成最終的客戶畫像。
具體到算法模型,我們也先后比較許多方法,本質(zhì)上我們認(rèn)為標(biāo)簽識別模型是一個短文本分類算法,我們嘗試了基于統(tǒng)計(jì)的方法(SVM, Random Forest, XgBoost),也嘗試了基于神經(jīng)網(wǎng)絡(luò)的模型(FastText,Text CNN/RNN/RCNN, HAN),最終我們選擇了HAN模型,也就是層次注意網(wǎng)絡(luò)(Hierarchical Attention Network)模型,通過在詞一級和句一級分別進(jìn)行RNN和Attention計(jì)算,最終得到一個合理的文本向量表征,用于最后的分類,整個過程如圖4所示。
圖4 HAN模型架構(gòu)
圖5是本實(shí)例的總體處理流程,經(jīng)過數(shù)據(jù)預(yù)處理之后,文本被并行地分配到各個業(yè)務(wù)關(guān)注標(biāo)簽提取模型之中,輸出各個業(yè)務(wù)標(biāo)簽,最終匯總到客戶畫像構(gòu)建模塊,在此進(jìn)行去重、消解歧義和矛盾,最后得到客戶的畫像。
圖5 實(shí)例處理總體流程
另外我們結(jié)合公司的敏捷實(shí)時數(shù)據(jù)平臺設(shè)計(jì)了一個相應(yīng)的實(shí)時AI解決方案,如圖6所示,這里用到了我們團(tuán)隊(duì)開源的一些技術(shù),包括DBus(數(shù)據(jù)總線平臺),Wormhole(流式處理平臺),Moonbox(計(jì)算服務(wù)平臺)以及Davinci(可視應(yīng)用平臺),這四個平臺構(gòu)成了敏捷大數(shù)據(jù)平臺棧。
在這個方案里,我們通過DBus來采集各類數(shù)據(jù)存儲中的自然語言數(shù)據(jù),經(jīng)過一些可選的技術(shù)(如ASR等)得到相應(yīng)的文本;再通過Wormhole來進(jìn)行實(shí)時的流式處理,標(biāo)簽?zāi)P驮赪ormhole的實(shí)時數(shù)據(jù)流上運(yùn)行,對數(shù)據(jù)流中的文本自動提取相應(yīng)的標(biāo)簽,再由Wormhole輸出到指定的數(shù)據(jù)存儲中;之后由Moonbox對標(biāo)簽進(jìn)行后續(xù)的匯總處理,先從存儲介質(zhì)之上把之前計(jì)算得到的標(biāo)簽提取出來,使用畫像模型對畫像進(jìn)行構(gòu)建,輸出到如Redis之類的存儲介質(zhì)之中,最后推送給業(yè)務(wù)系統(tǒng)供其使用。這就是我們實(shí)現(xiàn)的一個實(shí)時用戶畫像處理流程。
圖6
此外,在圖6下方的數(shù)據(jù)流分支里,我們通過在Wormhole上流轉(zhuǎn)的生產(chǎn)數(shù)據(jù)流進(jìn)行一個選擇性抽樣,之后同樣利用標(biāo)簽?zāi)P秃彤嬒衲P?,?jì)算出客戶畫像,此后將原始數(shù)據(jù)、標(biāo)簽數(shù)據(jù)和客戶畫像通過Davinci展示給我們的模型維護(hù)人員,用于評估檢查模型的運(yùn)行情況,這樣就實(shí)現(xiàn)了一個實(shí)時的模型效果監(jiān)控系統(tǒng)。綜合這兩者,我們就得到了一個實(shí)時的、基于文本分析的畫像構(gòu)建系統(tǒng)。
總結(jié)隨著各企業(yè)實(shí)體對自然語言數(shù)據(jù)愈發(fā)關(guān)注,NLP+AI技術(shù)在各領(lǐng)域都成了非常重要、核心的基礎(chǔ)技術(shù)服務(wù)。領(lǐng)域知識與NLP技術(shù)的結(jié)合帶來了新的技術(shù)產(chǎn)品,創(chuàng)造出了新的商業(yè)價(jià)值,比如我們目前常用的一些產(chǎn)品:Siri、小愛同學(xué)等等,這種Conversational UI帶來的不僅是一種全新的交互模式,更是開辟了一個新的產(chǎn)品領(lǐng)域。
在數(shù)據(jù)方面,雖然自然語言的數(shù)據(jù)存量很大,但目前來看無論是通用領(lǐng)域還是專業(yè)領(lǐng)域,經(jīng)過加工整理的高質(zhì)量自然語言語料數(shù)據(jù)資源還是比較缺乏,因此其具有非常高的價(jià)值。領(lǐng)域語料的積累可以極大提升AI產(chǎn)品的效果,在一定程度上幫助企業(yè)形成新的數(shù)據(jù)壁壘、技術(shù)壁壘。
在NLP的算法方面,就未來一段時間來看,如前文所述,面對小語料任務(wù)的Few-shot Learning會越來越受關(guān)注,尤其是以Bert為代表的遷移學(xué)習(xí)技術(shù),將給現(xiàn)在的一些NLP任務(wù)帶來一場革命。此外還有針對NLP語料的數(shù)據(jù)增強(qiáng)技術(shù),我們知道在圖像領(lǐng)域數(shù)據(jù)增強(qiáng)技術(shù)已經(jīng)比較成熟,是一種常見的數(shù)據(jù)處理方式,但是在NLP領(lǐng)域數(shù)據(jù)增強(qiáng)技術(shù)的發(fā)展還不夠成熟,如果能在這方面有所突破的話,相信會對各類NLP任務(wù)都有很大幫助。
NLP技術(shù)的發(fā)展還需要業(yè)界各企業(yè)、各位算法與工程專家的共同努力,相信未來我們能夠更準(zhǔn)確、更快速、更方便地理解各領(lǐng)域的自然語言數(shù)據(jù)。
-
作者:井玉欣 宜信技術(shù)學(xué)院
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19918.html
摘要:技術(shù)在宜信宜信擁有豐富的業(yè)務(wù)和產(chǎn)品線,這些產(chǎn)品線產(chǎn)生了大量的人工智能賦能需求。技術(shù)在宜信的實(shí)踐背景暫且介紹到這里,接下來我們會為大家介 文章圍繞基于機(jī)器學(xué)習(xí)的NLP技術(shù)在宜信內(nèi)部各業(yè)務(wù)領(lǐng)域的應(yīng)用實(shí)踐展開,分享這一過程中的相關(guān)經(jīng)驗(yàn),包括智能機(jī)器人在業(yè)務(wù)支持、客戶服務(wù)中的探索,基于文本語義分析的用戶畫像構(gòu)建,以及NLP算法服務(wù)平臺化實(shí)施思路等。本文為背景篇,敬請大家閱讀~ 作者:井玉欣。畢...
摘要:本篇為場景中的智能聊天機(jī)器人篇,敬請收看作者井玉欣。今天要介紹的是如何利用技術(shù)以及智能聊天機(jī)器人來解決組織內(nèi)部面臨的大量的每日業(yè)務(wù)咨詢問題。圖對于現(xiàn)代企業(yè)來說,智能聊天機(jī)器人有著非常廣泛的業(yè)務(wù)需求。 寫在前面:在背景篇《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【背景篇】》中,我們大概了解了NLP技術(shù)的發(fā)展情況,接下來,我們會向大家介紹NLP技術(shù)在宜信應(yīng)用的高級場景。本篇為場景中的智能...
摘要:月日晚點(diǎn),線上直播,中臺一種敏捷的智能業(yè)務(wù)支持方案金融科技領(lǐng)域,能解決什么問題在宜信年的發(fā)展歷程中,圍繞普惠金融和財(cái)富管理兩大業(yè)務(wù)板塊,宜信陸續(xù)推出了宜人貸宜人財(cái)富致誠信用博城保險(xiǎn)等多個產(chǎn)品,技術(shù)已被廣泛應(yīng)用到各產(chǎn)品的業(yè)務(wù)線中。 [宜信技術(shù)沙龍】是由宜信技術(shù)學(xué)院主辦的系列技術(shù)分享活動,活動包括線上和線下兩種形式,每期技術(shù)沙龍都將邀請宜信及其他互聯(lián)網(wǎng)公司的技術(shù)專家分享來自一線的實(shí)踐經(jīng)驗(yàn),...
閱讀 3734·2021-10-14 09:43
閱讀 3320·2021-08-25 09:38
閱讀 615·2019-08-30 15:55
閱讀 1354·2019-08-30 13:05
閱讀 2248·2019-08-29 16:05
閱讀 512·2019-08-29 12:58
閱讀 2801·2019-08-29 12:34
閱讀 3248·2019-08-26 12:15