摘要:面對(duì)這類問題,有一個(gè)專門的機(jī)器學(xué)習(xí)分支來進(jìn)行研究和解決。如圖所示,分別是三個(gè)類別的均值中心稱,將測(cè)試樣本進(jìn)行后,與這個(gè)中心進(jìn)行距離計(jì)算,從而獲得的類別。
分類非常常見,但如果每個(gè)類只有幾個(gè)標(biāo)注樣本,怎么辦呢?
筆者所在的阿里巴巴小蜜北京團(tuán)隊(duì)就面臨這個(gè)挑戰(zhàn)。我們打造了一個(gè)智能對(duì)話開發(fā)平臺(tái)——Dialog Studio,以賦能第三方開發(fā)者來開發(fā)各自業(yè)務(wù)場(chǎng)景中的任務(wù)型對(duì)話,其中一個(gè)重要功能就是對(duì)意圖進(jìn)行分類。大量平臺(tái)用戶在創(chuàng)建一個(gè)新對(duì)話任務(wù)時(shí),并沒有大量標(biāo)注數(shù)據(jù),每個(gè)意圖往往只有幾個(gè)或十幾個(gè)樣本。?
面對(duì)這類問題,有一個(gè)專門的機(jī)器學(xué)習(xí)分支——Few-shot Learning 來進(jìn)行研究和解決。過去一年,我們對(duì) Few-shot Learning 進(jìn)行了系統(tǒng)的梳理和研究,將 Few-shot Learning 和 Capsule Network 融合,提出了 Induction Network,在文本分類上做到了新的 state-of-the-art。
創(chuàng)新總是基于對(duì)已有成果的梳理和思考,這篇綜述算是一個(gè)小結(jié),寫出來和大家一起分享,一起討論。?
本文先介紹 Few-shot Learning 定義;由于最近幾年 Few-shot Learning 在圖像領(lǐng)域的進(jìn)展領(lǐng)先于在自然語言處理領(lǐng)域,所以第二部分結(jié)合其在圖像處理領(lǐng)域的研究進(jìn)展,詳細(xì)介紹 Few-shot Learning 的三類典型方法及每種方法的代表性模型;接下來介紹在自然語言處理領(lǐng)域的研究進(jìn)展以及我們對(duì) metric-based 的方法進(jìn)行系統(tǒng)總結(jié)后提出的 few-shot learning framework。
問題定義
人類非常擅長通過極少量的樣本識(shí)別一個(gè)新物體,比如小孩子只需要書中的一些圖片就可以認(rèn)識(shí)什么是“斑馬”,什么是“犀?!?。在人類的快速學(xué)習(xí)能力的啟發(fā)下,研究人員希望機(jī)器學(xué)習(xí)模型在學(xué)習(xí)了一定類別的大量數(shù)據(jù)后,對(duì)于新的類別,只需要少量的樣本就能快速學(xué)習(xí),這就是 Few-shot Learning 要解決的問題。?
Few-shot Learning 是 Meta Learning 在監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用。Meta Learning,又稱為 learning to learn,在 meta training 階段將數(shù)據(jù)集分解為不同的 meta task,去學(xué)習(xí)類別變化的情況下模型的泛化能力,在 meta testing 階段,面對(duì)全新的類別,不需要變動(dòng)已有的模型,就可以完成分類。?
形式化來說,few-shot 的訓(xùn)練集中包含了很多的類別,每個(gè)類別中有多個(gè)樣本。在訓(xùn)練階段,會(huì)在訓(xùn)練集中隨機(jī)抽取 C 個(gè)類別,每個(gè)類別 K 個(gè)樣本(總共 CK 個(gè)數(shù)據(jù)),構(gòu)建一個(gè) meta-task,作為模型的支撐集(support set)輸入;再從這 C 個(gè)類中剩余的數(shù)據(jù)中抽取一批(batch)樣本作為模型的預(yù)測(cè)對(duì)象(batch set)。即要求模型從 C*K 個(gè)數(shù)據(jù)中學(xué)會(huì)如何區(qū)分這 C 個(gè)類別,這樣的任務(wù)被稱為 C-way K-shot 問題。?
訓(xùn)練過程中,每次訓(xùn)練(episode)都會(huì)采樣得到不同 meta-task,所以總體來看,訓(xùn)練包含了不同的類別組合,這種機(jī)制使得模型學(xué)會(huì)不同 meta-task 中的共性部分,比如如何提取重要特征及比較樣本相似等,忘掉 meta-task 中 task 相關(guān)部分。通過這種學(xué)習(xí)機(jī)制學(xué)到的模型,在面對(duì)新的未見過的 meta-task 時(shí),也能較好地進(jìn)行分類。?
圖 1 展示的是一個(gè) 2-way 5-shot 的示例,可以看到 meta training 階段構(gòu)建了一系列 meta-task 來讓模型學(xué)習(xí)如何根據(jù) support set 預(yù)測(cè) batch set 中的樣本的標(biāo)簽;meta testing 階段的輸入數(shù)據(jù)的形式與訓(xùn)練階段一致(2-way 5-shot),但是會(huì)在全新的類別上構(gòu)建 support set 和 batch。
圖1:Few-shot Learning示例
在圖像領(lǐng)域的研究現(xiàn)狀
早期的 Few-shot Learning 算法研究多集中在圖像領(lǐng)域,如圖 2 所示,F(xiàn)ew-shot Learning 模型大致可分為三類:Mode Based,Metric Based 和 Optimization Based。
圖2:Few-shot Learning模型分類
其中 Model Based 方法旨在通過模型結(jié)構(gòu)的設(shè)計(jì)快速在少量樣本上更新參數(shù),直接建立輸入 x 和預(yù)測(cè)值 P 的映射函數(shù);Metric Based 方法通過度量 batch 集中的樣本和 support 集中樣本的距離,借助最近鄰的思想完成分類;Optimization Based 方法認(rèn)為普通的梯度下降方法難以在 few-shot 場(chǎng)景下擬合,因此通過調(diào)整優(yōu)化方法來完成小樣本分類的任務(wù)。
Model Based方法
Santoro 等人 [3] 提出使用記憶增強(qiáng)的方法來解決 Few-shot Learning 任務(wù)。基于記憶的神經(jīng)網(wǎng)絡(luò)方法早在 2001 年被證明可以用于 meta-learning。他們通過權(quán)重更新來調(diào)節(jié) bias,并且通過學(xué)習(xí)將表達(dá)快速緩存到記憶中來調(diào)節(jié)輸出。
然而,利用循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部記憶單元無法擴(kuò)展到需要對(duì)大量新信息進(jìn)行編碼的新任務(wù)上。因此,需要讓存儲(chǔ)在記憶中的表達(dá)既要穩(wěn)定又要是元素粒度訪問的,前者是說當(dāng)需要時(shí)就能可靠地訪問,后者是說可選擇性地訪問相關(guān)的信息;另外,參數(shù)數(shù)量不能被內(nèi)存的大小束縛。神經(jīng)圖靈機(jī)(NTMs)和記憶網(wǎng)絡(luò)就符合這種必要條件。?
文章基于神經(jīng)網(wǎng)絡(luò)圖靈機(jī)(NTMs)的思想,因?yàn)?NTMs 能通過外部存儲(chǔ)(external memory)進(jìn)行短時(shí)記憶,并能通過緩慢權(quán)值更新來進(jìn)行長時(shí)記憶,NTMs 可以學(xué)習(xí)將表達(dá)存入記憶的策略,并如何用這些表達(dá)來進(jìn)行預(yù)測(cè)。由此,文章方法可以快速準(zhǔn)確地預(yù)測(cè)那些只出現(xiàn)過一次的數(shù)據(jù)。
文章基于 LSTM 等 RNN 的模型,將數(shù)據(jù)看成序列來訓(xùn)練,在測(cè)試時(shí)輸入新的類的樣本進(jìn)行分類。
具體地,在 t 時(shí)刻,模型輸入,也就是在當(dāng)前時(shí)刻預(yù)測(cè)輸入樣本的類別,并在下一時(shí)刻給出真實(shí)的 label,并且添加了 external memory 存儲(chǔ)上一次的 x 輸入,這使得下一次輸入后進(jìn)行反向傳播時(shí),可以讓 y (label) 和 x 建立聯(lián)系,使得之后的 x 能夠通過外部記憶獲取相關(guān)圖像進(jìn)行比對(duì)來實(shí)現(xiàn)更好的預(yù)測(cè)。
圖3:Memory Augmented Model
Meta Network [12] 的快速泛化能力源自其“快速權(quán)重”的機(jī)制,在訓(xùn)練過程中產(chǎn)生的梯度被用來作為快速權(quán)重的生成。模型包含一個(gè) meta learner 和一個(gè) base learner,meta learner 用于學(xué)習(xí) meta task 之間的泛化信息,并使用 memory 機(jī)制保存這種信息,base learner 用于快速適應(yīng)新的 task,并和 meta learner 交互產(chǎn)生預(yù)測(cè)輸出。
Metric Based方法?
如果在 Few-shot Learning 的任務(wù)中去訓(xùn)練普通的基于 cross-entropy 的神經(jīng)網(wǎng)絡(luò)分類器,那么幾乎肯定是會(huì)過擬合,因?yàn)樯窠?jīng)網(wǎng)絡(luò)分類器中有數(shù)以萬計(jì)的參數(shù)需要優(yōu)化。
相反,很多非參數(shù)化的方法(最近鄰、K-近鄰、Kmeans)是不需要優(yōu)化參數(shù)的,因此可以在 meta-learning 的框架下構(gòu)造一種可以端到端訓(xùn)練的 few-shot 分類器。該方法是對(duì)樣本間距離分布進(jìn)行建模,使得同類樣本靠近,異類樣本遠(yuǎn)離。下面介紹相關(guān)的方法。?
如圖 4 所示,孿生網(wǎng)絡(luò)(Siamese Network)[4] 通過有監(jiān)督的方式訓(xùn)練孿生網(wǎng)絡(luò)來學(xué)習(xí),然后重用網(wǎng)絡(luò)所提取的特征進(jìn)行 one/few-shot 學(xué)習(xí)。
圖4:Siamese Network
具體的網(wǎng)絡(luò)是一個(gè)雙路的神經(jīng)網(wǎng)絡(luò),訓(xùn)練時(shí),通過組合的方式構(gòu)造不同的成對(duì)樣本,輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在最上層通過樣本對(duì)的距離判斷他們是否屬于同一個(gè)類,并產(chǎn)生對(duì)應(yīng)的概率分布。在預(yù)測(cè)階段,孿生網(wǎng)絡(luò)處理測(cè)試樣本和支撐集之間每一個(gè)樣本對(duì),最終預(yù)測(cè)結(jié)果為支撐集上概率較高的類別。
相比孿生網(wǎng)絡(luò),匹配網(wǎng)絡(luò)(Match Network)[2] 為支撐集和 Batch 集構(gòu)建不同的編碼器,最終分類器的輸出是支撐集樣本和 query 之間預(yù)測(cè)值的加權(quán)求和。
如圖 5 所示,該文章也是在不改變網(wǎng)絡(luò)模型的前提下能對(duì)未知類別生成標(biāo)簽,其主要?jiǎng)?chuàng)新體現(xiàn)在建模過程和訓(xùn)練過程上。對(duì)于建模過程的創(chuàng)新,文章提出了基于 memory 和 attention 的 matching nets,使得可以快速學(xué)習(xí)。
對(duì)于訓(xùn)練過程的創(chuàng)新,文章基于傳統(tǒng)機(jī)器學(xué)習(xí)的一個(gè)原則,即訓(xùn)練和測(cè)試是要在同樣條件下進(jìn)行的,提出在訓(xùn)練的時(shí)候不斷地讓網(wǎng)絡(luò)只看每一類的少量樣本,這將和測(cè)試的過程是一致的。
進(jìn)一步,支撐集樣本 embedding 模型 g 能繼續(xù)優(yōu)化,并且支撐集樣本應(yīng)該可以用來修改測(cè)試樣本的 embedding 模型 f。
這個(gè)可以通過如下兩個(gè)方面來解決,即:1)基于雙向 LSTM 學(xué)習(xí)訓(xùn)練集的 embedding,使得每個(gè)支撐樣本的 embedding 是其它訓(xùn)練樣本的函數(shù);2)基于 attention-LSTM 來對(duì)測(cè)試樣本 embedding,使得每個(gè) Query 樣本的 embedding 是支撐集 embedding 的函數(shù)。文章稱其為 FCE (fully-conditional embedding)。
圖5:Match Network
原型網(wǎng)絡(luò)(Prototype Network)[5] 基于這樣的想法:每個(gè)類別都存在一個(gè)原型表達(dá),該類的原型是 support set 在 embedding 空間中的均值。然后,分類問題變成在 embedding 空間中的最近鄰。
如圖 6 所示,c1、c2、c3 分別是三個(gè)類別的均值中心(稱 Prototype),將測(cè)試樣本 x 進(jìn)行 embedding 后,與這 3 個(gè)中心進(jìn)行距離計(jì)算,從而獲得 x 的類別。
圖6:Prototype Network
文章采用在 Bregman 散度下的指數(shù)族分布的混合密度估計(jì),文章在訓(xùn)練時(shí)采用相對(duì)測(cè)試時(shí)更多的類別數(shù),即訓(xùn)練時(shí)每個(gè) episodes 采用 20 個(gè)類(20 way),而測(cè)試對(duì)在 5 個(gè)類(5 way)中進(jìn)行,其效果相對(duì)訓(xùn)練時(shí)也采用 5 way 的提升了 2.5 個(gè)百分點(diǎn)。
前面介紹的幾個(gè)網(wǎng)絡(luò)結(jié)構(gòu)在最終的距離度量上都使用了固定的度量方式,如 cosine,歐式距離等,這種模型結(jié)構(gòu)下所有的學(xué)習(xí)過程都發(fā)生在樣本的 embedding 階段。
而 Relation Network [6] 認(rèn)為度量方式也是網(wǎng)絡(luò)中非常重要的一環(huán),需要對(duì)其進(jìn)行建模,所以該網(wǎng)絡(luò)不滿足單一且固定的距離度量方式,而是訓(xùn)練一個(gè)網(wǎng)絡(luò)來學(xué)習(xí)(例如 CNN)距離的度量方式,在 loss 方面也有所改變,考慮到 relation network 更多的關(guān)注 relation score,更像一種回歸,而非 0/1 分類,所以使用了 MSE 取代了 cross-entropy。
圖7:Relation Networks
Optimization Based方法
Ravi 等人 [7] 研究了在少量數(shù)據(jù)下,基于梯度的優(yōu)化算法失敗的原因,即無法直接用于 meta learning。
首先,這些梯度優(yōu)化算法包括 momentum, adagrad, adadelta, ADAM 等,無法在幾步內(nèi)完成優(yōu)化,特別是在非凸的問題上,多種超參的選取無法保證收斂的速度。
其次,不同任務(wù)分別隨機(jī)初始化會(huì)影響任務(wù)收斂到好的解上。雖然 finetune 這種遷移學(xué)習(xí)能緩解這個(gè)問題,但當(dāng)新數(shù)據(jù)相對(duì)原始數(shù)據(jù)偏差比較大時(shí),遷移學(xué)習(xí)的性能會(huì)大大下降。我們需要一個(gè)系統(tǒng)的學(xué)習(xí)通用初始化,使得訓(xùn)練從一個(gè)好的點(diǎn)開始,它和遷移學(xué)習(xí)不同的是,它能保證該初始化能讓 finetune 從一個(gè)好的點(diǎn)開始。?
文章學(xué)習(xí)的是一個(gè)模型參數(shù)的更新函數(shù)或更新規(guī)則。它不是在多輪的 episodes 學(xué)習(xí)一個(gè)單模型,而是在每個(gè) episode 學(xué)習(xí)特定的模型。
具體地,學(xué)習(xí)基于梯度下降的參數(shù)更新算法,采用 LSTM 表達(dá) meta learner,用其狀態(tài)表達(dá)目標(biāo)分類器的參數(shù)的更新,最終學(xué)會(huì)如何在新的分類任務(wù)上,對(duì)分類器網(wǎng)絡(luò)(learner)進(jìn)行初始化和參數(shù)更新。這個(gè)優(yōu)化算法同時(shí)考慮一個(gè)任務(wù)的短時(shí)知識(shí)和跨多個(gè)任務(wù)的長時(shí)知識(shí)。
文章設(shè)定目標(biāo)為通過少量的迭代步驟捕獲優(yōu)化算法的泛化能力,由此 meta learner 可以訓(xùn)練讓 learner 在每個(gè)任務(wù)上收斂到一個(gè)好的解。另外,通過捕獲所有任務(wù)之前共享的基礎(chǔ)知識(shí),進(jìn)而更好地初始化 learner。?
以訓(xùn)練 miniImage 數(shù)據(jù)集為例,訓(xùn)練過程中,從訓(xùn)練集(64 個(gè)類,每類 600 個(gè)樣本)中隨機(jī)采樣 5 個(gè)類,每個(gè)類 5 個(gè)樣本,構(gòu)成支撐集,去學(xué)習(xí) learner;然后從訓(xùn)練集的樣本(采出的 5 個(gè)類,每類剩下的樣本)中采樣構(gòu)成 Batch 集,集合中每類有 15 個(gè)樣本,用來獲得 learner 的 loss,去學(xué)習(xí) meta leaner。
測(cè)試時(shí)的流程一樣,從測(cè)試集(16 個(gè)類,每類 600 個(gè)樣本)中隨機(jī)采樣 5 個(gè)類,每個(gè)類 5 個(gè)樣本,構(gòu)成支撐集 Support Set,去學(xué)習(xí) learner;然后從測(cè)試集剩余的樣本(采出的 5 個(gè)類,每類剩下的樣本)中采樣構(gòu)成 Batch 集,集合中每類有 15 個(gè)樣本,用來獲得 learner 的參數(shù),進(jìn)而得到預(yù)測(cè)的類別概率。這兩個(gè)過程分別如圖 8 中虛線左側(cè)和右側(cè)。
圖8:Optimization as a model
meta learner 的目標(biāo)是在各種不同的學(xué)習(xí)任務(wù)上學(xué)出一個(gè)模型,使得可以僅用少量的樣本就能解決一些新的學(xué)習(xí)任務(wù)。這種任務(wù)的挑戰(zhàn)是模型需要結(jié)合之前的經(jīng)驗(yàn)和當(dāng)前新任務(wù)的少量樣本信息,并避免在新數(shù)據(jù)上過擬合。?
Finn [8] 提出的方法使得可以在小量樣本上,用少量的迭代步驟就可以獲得較好的泛化性能,而且模型是容易 fine-tine 的。而且這個(gè)方法無需關(guān)心模型的形式,也不需要為 meta learning 增加新的參數(shù),直接用梯度下降來訓(xùn)練 learner。
文章的核心思想是學(xué)習(xí)模型的初始化參數(shù)使得在一步或幾步迭代后在新任務(wù)上的精度較大化。它學(xué)的不是模型參數(shù)的更新函數(shù)或是規(guī)則,它不局限于參數(shù)的規(guī)模和模型架構(gòu)(比如用 RNN 或 siamese)。它本質(zhì)上也是學(xué)習(xí)一個(gè)好的特征使得可以適合很多任務(wù)(包括分類、回歸、增強(qiáng)學(xué)習(xí)),并通過 fine-tune 來獲得好的效果。
文章提出的方法,可以學(xué)習(xí)任意標(biāo)準(zhǔn)模型的參數(shù),并讓該模型能快速適配。他們認(rèn)為,一些中間表達(dá)更加適合遷移,比如神經(jīng)網(wǎng)絡(luò)的內(nèi)部特征。因此面向泛化性的表達(dá)是有益的。因?yàn)槲覀儠?huì)基于梯度下降策略在新的任務(wù)上進(jìn)行 finetune,所以目標(biāo)是學(xué)習(xí)這樣一個(gè)模型,它能對(duì)新的任務(wù)從之前任務(wù)上快速地進(jìn)行梯度下降,而不會(huì)過擬合。事實(shí)上,是要找到一些對(duì)任務(wù)變化敏感的參數(shù),使得當(dāng)改變梯度方向,小的參數(shù)改動(dòng)也會(huì)產(chǎn)生較大的 loss。
在自然語言處理的研究現(xiàn)狀
早期的 Few-shot Learning 算法研究主要集中在小樣本圖像識(shí)別的任務(wù)上,以 MiniImage 和 Omnigraffle 兩個(gè)數(shù)據(jù)集為代表。
近年來,在自然語言處理領(lǐng)域也開始出現(xiàn) Few-shot Learning 的數(shù)據(jù)集和模型,相比于圖像,文本的語義中包含更多的變化和噪聲,我們將在本節(jié)從數(shù)據(jù)集和模型兩個(gè)方面介紹 Few-shot Learning 在自然語言處理領(lǐng)域的進(jìn)展,以及我們團(tuán)隊(duì)基于對(duì)話工廠平臺(tái)所做的探索。
數(shù)據(jù)集
1. FewRel 數(shù)據(jù)集 [11] 由Han等人在EMNLP 2018提出,是一個(gè)小樣本關(guān)系分類數(shù)據(jù)集,包含64種關(guān)系用于訓(xùn)練,16種關(guān)系用于驗(yàn)證和20種關(guān)系用于測(cè)試,每種關(guān)系下包含700個(gè)樣本。?
2. ARSC 數(shù)據(jù)集 [10] 由 Yu 等人在 NAACL 2018 提出,取自亞馬遜多領(lǐng)域情感分類數(shù)據(jù),該數(shù)據(jù)集包含 23 種亞馬遜商品的評(píng)論數(shù)據(jù),對(duì)于每一種商品,構(gòu)建三個(gè)二分類任務(wù),將其評(píng)論按分?jǐn)?shù)分為 5、4、 2 三檔,每一檔視為一個(gè)二分類任務(wù),則產(chǎn)生 23*3=69 個(gè) task,然后取其中 12 個(gè) task(4*3)作為測(cè)試集,其余 57 個(gè) task 作為訓(xùn)練集。?
3. ODIC 數(shù)據(jù)集來自阿里巴巴對(duì)話工廠平臺(tái)的線上日志,用戶會(huì)向平臺(tái)提交多種不同的對(duì)話任務(wù),和多種不同的意圖,但是每種意圖只有極少數(shù)的標(biāo)注數(shù)據(jù),這形成了一個(gè)典型的 Few-shot Learning 任務(wù),該數(shù)據(jù)集包含 216 個(gè)意圖,其中 159 個(gè)用于訓(xùn)練,57 個(gè)用于測(cè)試。
主要模型
Gao [9] 等人提出文本與圖像的一大區(qū)別在于其多樣性和噪音更大,因此提出一種基于混合注意力的原型網(wǎng)絡(luò)結(jié)構(gòu),如圖 9 所示,首先使用 instance-level 的 attention 從支撐集中選出和 query 更為貼近的實(shí)例,同時(shí)降低噪聲實(shí)例所帶來的影響。
然后 feature-level 的實(shí)例能夠衡量特征空間中的哪些維度對(duì)分類更為重要,從而為每種不同的關(guān)系都生成相適應(yīng)的距離度量函數(shù),從而使模型能夠有效處理特征稀疏的問題。
圖9:基于混合注意力的原型網(wǎng)絡(luò)
Yu [10] 等人指出在圖像領(lǐng)域的 Few-shot Learning 任務(wù)中,比如 Omniglot 和 miniImage 數(shù)據(jù)集,所有的數(shù)據(jù)都是從同一個(gè)大的數(shù)據(jù)集采樣而來,也就是說所有的 meta-task 都是來自同一個(gè)領(lǐng)域,所以相關(guān)性是很強(qiáng)的。
所以之前的 Few-shot Learning 方法只需使用一個(gè) meta model 即可解決剩余的 few-shot 任務(wù)。但是在現(xiàn)實(shí)場(chǎng)景當(dāng)中,不同的 meta task 可能來自完全不同的領(lǐng)域,因此使用多帶帶的度量方式不足以衡量所有的 meta task。?
在這種場(chǎng)景下,Yu 提出使用多種度量方式融合來解跨領(lǐng)域的 Few-shot Learning 問題。在訓(xùn)練階段,meta learner 通過任務(wù)聚類選擇和結(jié)合多種度量方式來學(xué)習(xí)目標(biāo)任務(wù),不同領(lǐng)域的 meta task 首先通過聚類來劃分,因此同一個(gè)簇內(nèi)的 task 可以認(rèn)為是相關(guān)的,然后在該簇中訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)作為度量函數(shù),這種機(jī)制保證了只有在同一個(gè)簇中的 task 才會(huì)共享度量函數(shù)。
在測(cè)試階段,為每個(gè) test task 使用所有度量函數(shù)的線性組合作為任務(wù)適應(yīng)的度量方式。
在對(duì)話工廠平臺(tái)的研究和應(yīng)用
我們團(tuán)隊(duì)基于目前 Metric Based 方法,提出了 Encoder-Induction-Relation 的三級(jí)框架,如圖 10 所示,Encoder 模塊用于獲取每個(gè)樣本的語義表示,可以使用典型的 CNN、LSTM、Transformer 等結(jié)構(gòu),Induction 模塊用于從支撐集的樣本語義中歸納出類別特征,Relation 模塊用于度量 query 和類別之間的語義關(guān)系,進(jìn)而完成分類。
圖10:Encoder-Induction-Relation三級(jí)框架
如表 1 所示,之前的工作往往致力于學(xué)習(xí)不同的距離度量方式,而忽視了從樣本表示到類表示的建模。而在自然語言當(dāng)中,由于每個(gè)人的語言習(xí)慣不同,同一個(gè)類別的不同表述往往有很多種,如果僅僅是簡單加和或取平均來作為類別的表示,這些與分類無關(guān)的干擾信息就會(huì)累加,影響最終的效果。
因此我們的工作顯式的建模了從樣本表示到類表示這一能力,在 ODIC 和 ARSC 兩個(gè)數(shù)據(jù)集上,超過了之前的 state-of-the-art 的模型,實(shí)驗(yàn)結(jié)果如表 2 所示。
表1:Metric Based方法對(duì)比
表2:ODIC數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
此外,我們?cè)?ODIC 數(shù)據(jù)集上逐漸增加訓(xùn)練數(shù)據(jù)的類別數(shù),如圖 11,在測(cè)試集上得到的效果會(huì)逐漸提升,這滿足了平臺(tái)級(jí)的語言理解所需要的可泛化、可持續(xù)學(xué)習(xí)的需求。
圖11:ODIC數(shù)據(jù)集變化趨勢(shì)
總結(jié)
本文從對(duì)話工廠平臺(tái)的實(shí)際問題出發(fā),對(duì)小樣本學(xué)習(xí)方法進(jìn)行了系統(tǒng)梳理和研究,給出了 Few-shot Learning 的定義,綜述了其在圖像和 NLP 領(lǐng)域的研究現(xiàn)狀。
針對(duì) Metric Based 系列方法,我們提出了統(tǒng)一的 Encode-Induction-Relation 描述框架,介紹了我們團(tuán)隊(duì)在使用 Few-shot Learning 解決平臺(tái)級(jí)自然語言理解所做的工作,即顯式建模從樣本表示到類表示的歸納能力。
參考文獻(xiàn)
[1] Brenden M. Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua B. Tenenbaum. One shot learning of simple visual concepts. In CogSci, 2011.?
[2] Oriol Vinyals, Charles Blundell, Tim Lillicrap, Daan Wierstra, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pages 3630–3638, 2016.?
[3] Santoro A, Bartunov S, Botvinick M, et al. One-shot learning with memory-augmented neural networks[J]. arXiv preprint arXiv:1605.06065, 2016.?
[4] Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov. "Siamese neural networks for one-shot image recognition." ICML Deep Learning Workshop. Vol. 2. 2015.?
[5] Snell, Jake, Kevin Swersky, and Richard Zemel. "Prototypical networks for few-shot learning." Advances in Neural Information Processing Systems. 2017.?
[6] Sung, Flood, et al. "Learning to compare: Relation network for few-shot learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.?
[7] Ravi, Sachin, and Hugo Larochelle. "Optimization as a model for few-shot learning." (2016).?
[8] Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.?
[9] Gao, Tianyu, et al. "Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification." (2019).?
[10] Yu, Mo, et al. "Diverse few-shot text classification with multiple metrics." arXiv preprint arXiv:1805.07513 (2018).?
[11] Han, Xu, et al. "FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation." arXiv preprint arXiv:1810.10147 (2018).?
[12] Munkhdalai, Tsendsuren, and Hong Yu. "Meta networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.?
[13] Geng R, Li B, Li Y, et al. Few-Shot Text Classification with Induction Network[J]. arXiv preprint arXiv:1902.10482, 2019.?
[14] https://blog.csdn.net/qq_16234613/article/details/79902085?
[15] https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html#learner-and-meta-learner
聲明:本文版權(quán)歸原作者所有,文章收集于網(wǎng)絡(luò),為傳播信息而發(fā),如有侵權(quán),請(qǐng)聯(lián)系小編及時(shí)處理,謝謝!歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4870.html
摘要:導(dǎo)讀前面兩篇我們介紹了技術(shù)在宜信應(yīng)用的背景敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐背景篇,以及應(yīng)用場(chǎng)景之一敏捷技術(shù)在宜信業(yè)務(wù)中的實(shí)踐智能聊天機(jī)器人篇。這就是我們實(shí)現(xiàn)的一個(gè)實(shí)時(shí)用戶畫像處理流程。 導(dǎo)讀: 前面兩篇我們介紹了NLP技術(shù)在宜信應(yīng)用的背景《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【背景篇】》,以及應(yīng)用場(chǎng)景之一《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐【智能聊天機(jī)器人篇】》。本篇為另一個(gè)場(chǎng)...
摘要:摘要背景深度學(xué)習(xí)是一種表示學(xué)習(xí)方法,非常適合用來處理數(shù)字病理學(xué)中的圖像分析問題。優(yōu)質(zhì)的注釋樣本是深度學(xué)習(xí)重要的先決條件,但是處理數(shù)字病理學(xué)中最大的挑戰(zhàn)就是獲取高質(zhì)量的注釋樣本。本文使用的深度學(xué)習(xí)主要由四個(gè)模塊組成。 Deep learning for digital pathology image analysis: A comprehensive tutorial with sele...
摘要:折交叉驗(yàn)證集,每折包含約張訓(xùn)練圖像和張測(cè)試圖像,正樣本邊界負(fù)樣本其他負(fù)樣本,訓(xùn)練集中共圖像塊。浸潤性導(dǎo)管癌是乳腺癌中最長出現(xiàn)的亞種。 Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases Deep learning for digital ...
摘要:淋巴細(xì)胞是白細(xì)胞的一個(gè)亞種,在免疫系統(tǒng)中很重要。患病或有異物的區(qū)域淋巴細(xì)胞數(shù)量會(huì)極大增加,所以通過確認(rèn)和定量淋巴細(xì)胞的密度和位置有助于評(píng)估疾病。本節(jié)目標(biāo)是確定淋巴細(xì)胞的中心,是一個(gè)檢測(cè)任務(wù)。常見的假陽性和真實(shí)正例見圖。 Deep learning for digital pathology image analysis: A comprehensive tutorial with se...
摘要:三大牛和在深度學(xué)習(xí)領(lǐng)域的地位無人不知。逐漸地,這些應(yīng)用使用一種叫深度學(xué)習(xí)的技術(shù)。監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)中,不論是否是深層,最常見的形式是監(jiān)督學(xué)習(xí)。 三大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton在深度學(xué)習(xí)領(lǐng)域的地位無人不知。為紀(jì)念人工智能提出60周年,的《Nature》雜志專門開辟了一個(gè)人工智能 + 機(jī)器人專題 ,發(fā)表多篇相關(guān)論文,其中包括了Yann LeC...
閱讀 1423·2021-09-23 11:21
閱讀 3119·2019-08-30 14:14
閱讀 3205·2019-08-30 13:56
閱讀 4156·2019-08-30 11:20
閱讀 1962·2019-08-29 17:23
閱讀 2778·2019-08-29 16:14
閱讀 1708·2019-08-28 18:18
閱讀 1499·2019-08-26 12:14