小樣本學(xué)習(xí)（Few-shot Learning）綜述

tigerZH 發(fā)布于2019-04-25 18:32 / 2703人閱讀

摘要：面對(duì)這類問題，有一個(gè)專門的機(jī)器學(xué)習(xí)分支來進(jìn)行研究和解決。如圖所示，分別是三個(gè)類別的均值中心稱，將測(cè)試樣本進(jìn)行后，與這個(gè)中心進(jìn)行距離計(jì)算，從而獲得的類別。

分類非常常見，但如果每個(gè)類只有幾個(gè)標(biāo)注樣本，怎么辦呢？

筆者所在的阿里巴巴小蜜北京團(tuán)隊(duì)就面臨這個(gè)挑戰(zhàn)。我們打造了一個(gè)智能對(duì)話開發(fā)平臺(tái)——Dialog Studio，以賦能第三方開發(fā)者來開發(fā)各自業(yè)務(wù)場(chǎng)景中的任務(wù)型對(duì)話，其中一個(gè)重要功能就是對(duì)意圖進(jìn)行分類。大量平臺(tái)用戶在創(chuàng)建一個(gè)新對(duì)話任務(wù)時(shí)，并沒有大量標(biāo)注數(shù)據(jù)，每個(gè)意圖往往只有幾個(gè)或十幾個(gè)樣本。?

面對(duì)這類問題，有一個(gè)專門的機(jī)器學(xué)習(xí)分支——Few-shot Learning 來進(jìn)行研究和解決。過去一年，我們對(duì) Few-shot Learning 進(jìn)行了系統(tǒng)的梳理和研究，將 Few-shot Learning 和 Capsule Network 融合，提出了 Induction Network，在文本分類上做到了新的 state-of-the-art。

創(chuàng)新總是基于對(duì)已有成果的梳理和思考，這篇綜述算是一個(gè)小結(jié)，寫出來和大家一起分享，一起討論。?

本文先介紹 Few-shot Learning 定義；由于最近幾年 Few-shot Learning 在圖像領(lǐng)域的進(jìn)展領(lǐng)先于在自然語言處理領(lǐng)域，所以第二部分結(jié)合其在圖像處理領(lǐng)域的研究進(jìn)展，詳細(xì)介紹 Few-shot Learning 的三類典型方法及每種方法的代表性模型；接下來介紹在自然語言處理領(lǐng)域的研究進(jìn)展以及我們對(duì) metric-based 的方法進(jìn)行系統(tǒng)總結(jié)后提出的 few-shot learning framework。

問題定義

人類非常擅長通過極少量的樣本識(shí)別一個(gè)新物體，比如小孩子只需要書中的一些圖片就可以認(rèn)識(shí)什么是“斑馬”，什么是“犀?！?。在人類的快速學(xué)習(xí)能力的啟發(fā)下，研究人員希望機(jī)器學(xué)習(xí)模型在學(xué)習(xí)了一定類別的大量數(shù)據(jù)后，對(duì)于新的類別，只需要少量的樣本就能快速學(xué)習(xí)，這就是 Few-shot Learning 要解決的問題。?

Few-shot Learning 是 Meta Learning 在監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用。Meta Learning，又稱為 learning to learn，在 meta training 階段將數(shù)據(jù)集分解為不同的 meta task，去學(xué)習(xí)類別變化的情況下模型的泛化能力，在 meta testing 階段，面對(duì)全新的類別，不需要變動(dòng)已有的模型，就可以完成分類。?

形式化來說，few-shot 的訓(xùn)練集中包含了很多的類別，每個(gè)類別中有多個(gè)樣本。在訓(xùn)練階段，會(huì)在訓(xùn)練集中隨機(jī)抽取 C 個(gè)類別，每個(gè)類別 K 個(gè)樣本（總共 CK 個(gè)數(shù)據(jù)），構(gòu)建一個(gè) meta-task，作為模型的支撐集（support set）輸入；再從這 C 個(gè)類中剩余的數(shù)據(jù)中抽取一批（batch）樣本作為模型的預(yù)測(cè)對(duì)象（batch set）。即要求模型從 C*K 個(gè)數(shù)據(jù)中學(xué)會(huì)如何區(qū)分這 C 個(gè)類別，這樣的任務(wù)被稱為 C-way K-shot 問題。?

訓(xùn)練過程中，每次訓(xùn)練（episode）都會(huì)采樣得到不同 meta-task，所以總體來看，訓(xùn)練包含了不同的類別組合，這種機(jī)制使得模型學(xué)會(huì)不同 meta-task 中的共性部分，比如如何提取重要特征及比較樣本相似等，忘掉 meta-task 中 task 相關(guān)部分。通過這種學(xué)習(xí)機(jī)制學(xué)到的模型，在面對(duì)新的未見過的 meta-task 時(shí)，也能較好地進(jìn)行分類。?

圖 1 展示的是一個(gè) 2-way 5-shot 的示例，可以看到 meta training 階段構(gòu)建了一系列 meta-task 來讓模型學(xué)習(xí)如何根據(jù) support set 預(yù)測(cè) batch set 中的樣本的標(biāo)簽；meta testing 階段的輸入數(shù)據(jù)的形式與訓(xùn)練階段一致（2-way 5-shot），但是會(huì)在全新的類別上構(gòu)建 support set 和 batch。

圖1：Few-shot Learning示例

在圖像領(lǐng)域的研究現(xiàn)狀

早期的 Few-shot Learning 算法研究多集中在圖像領(lǐng)域，如圖 2 所示，F(xiàn)ew-shot Learning 模型大致可分為三類：Mode Based，Metric Based 和 Optimization Based。

圖2：Few-shot Learning模型分類

其中 Model Based 方法旨在通過模型結(jié)構(gòu)的設(shè)計(jì)快速在少量樣本上更新參數(shù)，直接建立輸入 x 和預(yù)測(cè)值 P 的映射函數(shù)；Metric Based 方法通過度量 batch 集中的樣本和 support 集中樣本的距離，借助最近鄰的思想完成分類；Optimization Based 方法認(rèn)為普通的梯度下降方法難以在 few-shot 場(chǎng)景下擬合，因此通過調(diào)整優(yōu)化方法來完成小樣本分類的任務(wù)。

Model Based方法

Santoro 等人 [3] 提出使用記憶增強(qiáng)的方法來解決 Few-shot Learning 任務(wù)。基于記憶的神經(jīng)網(wǎng)絡(luò)方法早在 2001 年被證明可以用于 meta-learning。他們通過權(quán)重更新來調(diào)節(jié) bias，并且通過學(xué)習(xí)將表達(dá)快速緩存到記憶中來調(diào)節(jié)輸出。

然而，利用循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部記憶單元無法擴(kuò)展到需要對(duì)大量新信息進(jìn)行編碼的新任務(wù)上。因此，需要讓存儲(chǔ)在記憶中的表達(dá)既要穩(wěn)定又要是元素粒度訪問的，前者是說當(dāng)需要時(shí)就能可靠地訪問，后者是說可選擇性地訪問相關(guān)的信息；另外，參數(shù)數(shù)量不能被內(nèi)存的大小束縛。神經(jīng)圖靈機(jī)（NTMs）和記憶網(wǎng)絡(luò)就符合這種必要條件。?

文章基于神經(jīng)網(wǎng)絡(luò)圖靈機(jī)（NTMs）的思想，因?yàn)?NTMs 能通過外部存儲(chǔ)（external memory）進(jìn)行短時(shí)記憶，并能通過緩慢權(quán)值更新來進(jìn)行長時(shí)記憶，NTMs 可以學(xué)習(xí)將表達(dá)存入記憶的策略，并如何用這些表達(dá)來進(jìn)行預(yù)測(cè)。由此，文章方法可以快速準(zhǔn)確地預(yù)測(cè)那些只出現(xiàn)過一次的數(shù)據(jù)。

文章基于 LSTM 等 RNN 的模型，將數(shù)據(jù)看成序列來訓(xùn)練，在測(cè)試時(shí)輸入新的類的樣本進(jìn)行分類。

具體地，在 t 時(shí)刻，模型輸入，也就是在當(dāng)前時(shí)刻預(yù)測(cè)輸入樣本的類別，并在下一時(shí)刻給出真實(shí)的 label，并且添加了 external memory 存儲(chǔ)上一次的 x 輸入，這使得下一次輸入后進(jìn)行反向傳播時(shí)，可以讓 y (label) 和 x 建立聯(lián)系，使得之后的 x 能夠通過外部記憶獲取相關(guān)圖像進(jìn)行比對(duì)來實(shí)現(xiàn)更好的預(yù)測(cè)。

圖3：Memory Augmented Model

Meta Network [12] 的快速泛化能力源自其“快速權(quán)重”的機(jī)制，在訓(xùn)練過程中產(chǎn)生的梯度被用來作為快速權(quán)重的生成。模型包含一個(gè) meta learner 和一個(gè) base learner，meta learner 用于學(xué)習(xí) meta task 之間的泛化信息，并使用 memory 機(jī)制保存這種信息，base learner 用于快速適應(yīng)新的 task，并和 meta learner 交互產(chǎn)生預(yù)測(cè)輸出。

Metric Based方法?

如果在 Few-shot Learning 的任務(wù)中去訓(xùn)練普通的基于 cross-entropy 的神經(jīng)網(wǎng)絡(luò)分類器，那么幾乎肯定是會(huì)過擬合，因?yàn)樯窠?jīng)網(wǎng)絡(luò)分類器中有數(shù)以萬計(jì)的參數(shù)需要優(yōu)化。

相反，很多非參數(shù)化的方法（最近鄰、K-近鄰、Kmeans）是不需要優(yōu)化參數(shù)的，因此可以在 meta-learning 的框架下構(gòu)造一種可以端到端訓(xùn)練的 few-shot 分類器。該方法是對(duì)樣本間距離分布進(jìn)行建模，使得同類樣本靠近，異類樣本遠(yuǎn)離。下面介紹相關(guān)的方法。?

如圖 4 所示，孿生網(wǎng)絡(luò)（Siamese Network）[4] 通過有監(jiān)督的方式訓(xùn)練孿生網(wǎng)絡(luò)來學(xué)習(xí)，然后重用網(wǎng)絡(luò)所提取的特征進(jìn)行 one/few-shot 學(xué)習(xí)。

圖4：Siamese Network

具體的網(wǎng)絡(luò)是一個(gè)雙路的神經(jīng)網(wǎng)絡(luò)，訓(xùn)練時(shí)，通過組合的方式構(gòu)造不同的成對(duì)樣本，輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練，在最上層通過樣本對(duì)的距離判斷他們是否屬于同一個(gè)類，并產(chǎn)生對(duì)應(yīng)的概率分布。在預(yù)測(cè)階段，孿生網(wǎng)絡(luò)處理測(cè)試樣本和支撐集之間每一個(gè)樣本對(duì)，最終預(yù)測(cè)結(jié)果為支撐集上概率較高的類別。

相比孿生網(wǎng)絡(luò)，匹配網(wǎng)絡(luò)（Match Network）[2] 為支撐集和 Batch 集構(gòu)建不同的編碼器，最終分類器的輸出是支撐集樣本和 query 之間預(yù)測(cè)值的加權(quán)求和。

如圖 5 所示，該文章也是在不改變網(wǎng)絡(luò)模型的前提下能對(duì)未知類別生成標(biāo)簽，其主要?jiǎng)?chuàng)新體現(xiàn)在建模過程和訓(xùn)練過程上。對(duì)于建模過程的創(chuàng)新，文章提出了基于 memory 和 attention 的 matching nets，使得可以快速學(xué)習(xí)。

對(duì)于訓(xùn)練過程的創(chuàng)新，文章基于傳統(tǒng)機(jī)器學(xué)習(xí)的一個(gè)原則，即訓(xùn)練和測(cè)試是要在同樣條件下進(jìn)行的，提出在訓(xùn)練的時(shí)候不斷地讓網(wǎng)絡(luò)只看每一類的少量樣本，這將和測(cè)試的過程是一致的。

進(jìn)一步，支撐集樣本 embedding 模型 g 能繼續(xù)優(yōu)化，并且支撐集樣本應(yīng)該可以用來修改測(cè)試樣本的 embedding 模型 f。

這個(gè)可以通過如下兩個(gè)方面來解決，即：1）基于雙向 LSTM 學(xué)習(xí)訓(xùn)練集的 embedding，使得每個(gè)支撐樣本的 embedding 是其它訓(xùn)練樣本的函數(shù)；2）基于 attention-LSTM 來對(duì)測(cè)試樣本 embedding，使得每個(gè) Query 樣本的 embedding 是支撐集 embedding 的函數(shù)。文章稱其為 FCE (fully-conditional embedding)。

圖5：Match Network

原型網(wǎng)絡(luò)（Prototype Network）[5] 基于這樣的想法：每個(gè)類別都存在一個(gè)原型表達(dá)，該類的原型是 support set 在 embedding 空間中的均值。然后，分類問題變成在 embedding 空間中的最近鄰。

如圖 6 所示，c1、c2、c3 分別是三個(gè)類別的均值中心（稱 Prototype），將測(cè)試樣本 x 進(jìn)行 embedding 后，與這 3 個(gè)中心進(jìn)行距離計(jì)算，從而獲得 x 的類別。

圖6：Prototype Network

文章采用在 Bregman 散度下的指數(shù)族分布的混合密度估計(jì)，文章在訓(xùn)練時(shí)采用相對(duì)測(cè)試時(shí)更多的類別數(shù)，即訓(xùn)練時(shí)每個(gè) episodes 采用 20 個(gè)類（20 way），而測(cè)試對(duì)在 5 個(gè)類（5 way）中進(jìn)行，其效果相對(duì)訓(xùn)練時(shí)也采用 5 way 的提升了 2.5 個(gè)百分點(diǎn)。

前面介紹的幾個(gè)網(wǎng)絡(luò)結(jié)構(gòu)在最終的距離度量上都使用了固定的度量方式，如 cosine，歐式距離等，這種模型結(jié)構(gòu)下所有的學(xué)習(xí)過程都發(fā)生在樣本的 embedding 階段。

而 Relation Network [6] 認(rèn)為度量方式也是網(wǎng)絡(luò)中非常重要的一環(huán)，需要對(duì)其進(jìn)行建模，所以該網(wǎng)絡(luò)不滿足單一且固定的距離度量方式，而是訓(xùn)練一個(gè)網(wǎng)絡(luò)來學(xué)習(xí)（例如 CNN）距離的度量方式，在 loss 方面也有所改變，考慮到 relation network 更多的關(guān)注 relation score，更像一種回歸，而非 0/1 分類，所以使用了 MSE 取代了 cross-entropy。

圖7：Relation Networks

Optimization Based方法

Ravi 等人 [7] 研究了在少量數(shù)據(jù)下，基于梯度的優(yōu)化算法失敗的原因，即無法直接用于 meta learning。

首先，這些梯度優(yōu)化算法包括 momentum, adagrad, adadelta, ADAM 等，無法在幾步內(nèi)完成優(yōu)化，特別是在非凸的問題上，多種超參的選取無法保證收斂的速度。

其次，不同任務(wù)分別隨機(jī)初始化會(huì)影響任務(wù)收斂到好的解上。雖然 finetune 這種遷移學(xué)習(xí)能緩解這個(gè)問題，但當(dāng)新數(shù)據(jù)相對(duì)原始數(shù)據(jù)偏差比較大時(shí)，遷移學(xué)習(xí)的性能會(huì)大大下降。我們需要一個(gè)系統(tǒng)的學(xué)習(xí)通用初始化，使得訓(xùn)練從一個(gè)好的點(diǎn)開始，它和遷移學(xué)習(xí)不同的是，它能保證該初始化能讓 finetune 從一個(gè)好的點(diǎn)開始。?

文章學(xué)習(xí)的是一個(gè)模型參數(shù)的更新函數(shù)或更新規(guī)則。它不是在多輪的 episodes 學(xué)習(xí)一個(gè)單模型，而是在每個(gè) episode 學(xué)習(xí)特定的模型。

具體地，學(xué)習(xí)基于梯度下降的參數(shù)更新算法，采用 LSTM 表達(dá) meta learner，用其狀態(tài)表達(dá)目標(biāo)分類器的參數(shù)的更新，最終學(xué)會(huì)如何在新的分類任務(wù)上，對(duì)分類器網(wǎng)絡(luò)（learner）進(jìn)行初始化和參數(shù)更新。這個(gè)優(yōu)化算法同時(shí)考慮一個(gè)任務(wù)的短時(shí)知識(shí)和跨多個(gè)任務(wù)的長時(shí)知識(shí)。

文章設(shè)定目標(biāo)為通過少量的迭代步驟捕獲優(yōu)化算法的泛化能力，由此 meta learner 可以訓(xùn)練讓 learner 在每個(gè)任務(wù)上收斂到一個(gè)好的解。另外，通過捕獲所有任務(wù)之前共享的基礎(chǔ)知識(shí)，進(jìn)而更好地初始化 learner。?

以訓(xùn)練 miniImage 數(shù)據(jù)集為例，訓(xùn)練過程中，從訓(xùn)練集（64 個(gè)類，每類 600 個(gè)樣本）中隨機(jī)采樣 5 個(gè)類，每個(gè)類 5 個(gè)樣本，構(gòu)成支撐集，去學(xué)習(xí) learner；然后從訓(xùn)練集的樣本（采出的 5 個(gè)類，每類剩下的樣本）中采樣構(gòu)成 Batch 集，集合中每類有 15 個(gè)樣本，用來獲得 learner 的 loss，去學(xué)習(xí) meta leaner。

測(cè)試時(shí)的流程一樣，從測(cè)試集（16 個(gè)類，每類 600 個(gè)樣本）中隨機(jī)采樣 5 個(gè)類，每個(gè)類 5 個(gè)樣本，構(gòu)成支撐集 Support Set，去學(xué)習(xí) learner；然后從測(cè)試集剩余的樣本（采出的 5 個(gè)類，每類剩下的樣本）中采樣構(gòu)成 Batch 集，集合中每類有 15 個(gè)樣本，用來獲得 learner 的參數(shù)，進(jìn)而得到預(yù)測(cè)的類別概率。這兩個(gè)過程分別如圖 8 中虛線左側(cè)和右側(cè)。

圖8：Optimization as a model

meta learner 的目標(biāo)是在各種不同的學(xué)習(xí)任務(wù)上學(xué)出一個(gè)模型，使得可以僅用少量的樣本就能解決一些新的學(xué)習(xí)任務(wù)。這種任務(wù)的挑戰(zhàn)是模型需要結(jié)合之前的經(jīng)驗(yàn)和當(dāng)前新任務(wù)的少量樣本信息，并避免在新數(shù)據(jù)上過擬合。?

Finn [8] 提出的方法使得可以在小量樣本上，用少量的迭代步驟就可以獲得較好的泛化性能，而且模型是容易 fine-tine 的。而且這個(gè)方法無需關(guān)心模型的形式，也不需要為 meta learning 增加新的參數(shù)，直接用梯度下降來訓(xùn)練 learner。

文章的核心思想是學(xué)習(xí)模型的初始化參數(shù)使得在一步或幾步迭代后在新任務(wù)上的精度較大化。它學(xué)的不是模型參數(shù)的更新函數(shù)或是規(guī)則，它不局限于參數(shù)的規(guī)模和模型架構(gòu)（比如用 RNN 或 siamese）。它本質(zhì)上也是學(xué)習(xí)一個(gè)好的特征使得可以適合很多任務(wù)（包括分類、回歸、增強(qiáng)學(xué)習(xí)），并通過 fine-tune 來獲得好的效果。

文章提出的方法，可以學(xué)習(xí)任意標(biāo)準(zhǔn)模型的參數(shù)，并讓該模型能快速適配。他們認(rèn)為，一些中間表達(dá)更加適合遷移，比如神經(jīng)網(wǎng)絡(luò)的內(nèi)部特征。因此面向泛化性的表達(dá)是有益的。因?yàn)槲覀儠?huì)基于梯度下降策略在新的任務(wù)上進(jìn)行 finetune，所以目標(biāo)是學(xué)習(xí)這樣一個(gè)模型，它能對(duì)新的任務(wù)從之前任務(wù)上快速地進(jìn)行梯度下降，而不會(huì)過擬合。事實(shí)上，是要找到一些對(duì)任務(wù)變化敏感的參數(shù)，使得當(dāng)改變梯度方向，小的參數(shù)改動(dòng)也會(huì)產(chǎn)生較大的 loss。

在自然語言處理的研究現(xiàn)狀

早期的 Few-shot Learning 算法研究主要集中在小樣本圖像識(shí)別的任務(wù)上，以 MiniImage 和 Omnigraffle 兩個(gè)數(shù)據(jù)集為代表。

近年來，在自然語言處理領(lǐng)域也開始出現(xiàn) Few-shot Learning 的數(shù)據(jù)集和模型，相比于圖像，文本的語義中包含更多的變化和噪聲，我們將在本節(jié)從數(shù)據(jù)集和模型兩個(gè)方面介紹 Few-shot Learning 在自然語言處理領(lǐng)域的進(jìn)展，以及我們團(tuán)隊(duì)基于對(duì)話工廠平臺(tái)所做的探索。

數(shù)據(jù)集

1. FewRel 數(shù)據(jù)集 [11] 由Han等人在EMNLP 2018提出，是一個(gè)小樣本關(guān)系分類數(shù)據(jù)集，包含64種關(guān)系用于訓(xùn)練，16種關(guān)系用于驗(yàn)證和20種關(guān)系用于測(cè)試，每種關(guān)系下包含700個(gè)樣本。?

2. ARSC 數(shù)據(jù)集 [10] 由 Yu 等人在 NAACL 2018 提出，取自亞馬遜多領(lǐng)域情感分類數(shù)據(jù)，該數(shù)據(jù)集包含 23 種亞馬遜商品的評(píng)論數(shù)據(jù)，對(duì)于每一種商品，構(gòu)建三個(gè)二分類任務(wù)，將其評(píng)論按分?jǐn)?shù)分為 5、4、 2 三檔，每一檔視為一個(gè)二分類任務(wù)，則產(chǎn)生 23*3=69 個(gè) task，然后取其中 12 個(gè) task（4*3）作為測(cè)試集，其余 57 個(gè) task 作為訓(xùn)練集。?

3. ODIC 數(shù)據(jù)集來自阿里巴巴對(duì)話工廠平臺(tái)的線上日志，用戶會(huì)向平臺(tái)提交多種不同的對(duì)話任務(wù)，和多種不同的意圖，但是每種意圖只有極少數(shù)的標(biāo)注數(shù)據(jù)，這形成了一個(gè)典型的 Few-shot Learning 任務(wù)，該數(shù)據(jù)集包含 216 個(gè)意圖，其中 159 個(gè)用于訓(xùn)練，57 個(gè)用于測(cè)試。

主要模型

Gao [9] 等人提出文本與圖像的一大區(qū)別在于其多樣性和噪音更大，因此提出一種基于混合注意力的原型網(wǎng)絡(luò)結(jié)構(gòu)，如圖 9 所示，首先使用 instance-level 的 attention 從支撐集中選出和 query 更為貼近的實(shí)例，同時(shí)降低噪聲實(shí)例所帶來的影響。

然后 feature-level 的實(shí)例能夠衡量特征空間中的哪些維度對(duì)分類更為重要，從而為每種不同的關(guān)系都生成相適應(yīng)的距離度量函數(shù)，從而使模型能夠有效處理特征稀疏的問題。

圖9：基于混合注意力的原型網(wǎng)絡(luò)

Yu [10] 等人指出在圖像領(lǐng)域的 Few-shot Learning 任務(wù)中，比如 Omniglot 和 miniImage 數(shù)據(jù)集，所有的數(shù)據(jù)都是從同一個(gè)大的數(shù)據(jù)集采樣而來，也就是說所有的 meta-task 都是來自同一個(gè)領(lǐng)域，所以相關(guān)性是很強(qiáng)的。

所以之前的 Few-shot Learning 方法只需使用一個(gè) meta model 即可解決剩余的 few-shot 任務(wù)。但是在現(xiàn)實(shí)場(chǎng)景當(dāng)中，不同的 meta task 可能來自完全不同的領(lǐng)域，因此使用多帶帶的度量方式不足以衡量所有的 meta task。?

在這種場(chǎng)景下，Yu 提出使用多種度量方式融合來解跨領(lǐng)域的 Few-shot Learning 問題。在訓(xùn)練階段，meta learner 通過任務(wù)聚類選擇和結(jié)合多種度量方式來學(xué)習(xí)目標(biāo)任務(wù)，不同領(lǐng)域的 meta task 首先通過聚類來劃分，因此同一個(gè)簇內(nèi)的 task 可以認(rèn)為是相關(guān)的，然后在該簇中訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)作為度量函數(shù)，這種機(jī)制保證了只有在同一個(gè)簇中的 task 才會(huì)共享度量函數(shù)。

在測(cè)試階段，為每個(gè) test task 使用所有度量函數(shù)的線性組合作為任務(wù)適應(yīng)的度量方式。

在對(duì)話工廠平臺(tái)的研究和應(yīng)用

我們團(tuán)隊(duì)基于目前 Metric Based 方法，提出了 Encoder-Induction-Relation 的三級(jí)框架，如圖 10 所示，Encoder 模塊用于獲取每個(gè)樣本的語義表示，可以使用典型的 CNN、LSTM、Transformer 等結(jié)構(gòu)，Induction 模塊用于從支撐集的樣本語義中歸納出類別特征，Relation 模塊用于度量 query 和類別之間的語義關(guān)系，進(jìn)而完成分類。

圖10：Encoder-Induction-Relation三級(jí)框架

如表 1 所示，之前的工作往往致力于學(xué)習(xí)不同的距離度量方式，而忽視了從樣本表示到類表示的建模。而在自然語言當(dāng)中，由于每個(gè)人的語言習(xí)慣不同，同一個(gè)類別的不同表述往往有很多種，如果僅僅是簡單加和或取平均來作為類別的表示，這些與分類無關(guān)的干擾信息就會(huì)累加，影響最終的效果。

因此我們的工作顯式的建模了從樣本表示到類表示這一能力，在 ODIC 和 ARSC 兩個(gè)數(shù)據(jù)集上，超過了之前的 state-of-the-art 的模型，實(shí)驗(yàn)結(jié)果如表 2 所示。

表1：Metric Based方法對(duì)比

表2：ODIC數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

此外，我們?cè)?ODIC 數(shù)據(jù)集上逐漸增加訓(xùn)練數(shù)據(jù)的類別數(shù)，如圖 11，在測(cè)試集上得到的效果會(huì)逐漸提升，這滿足了平臺(tái)級(jí)的語言理解所需要的可泛化、可持續(xù)學(xué)習(xí)的需求。

圖11：ODIC數(shù)據(jù)集變化趨勢(shì)

總結(jié)

本文從對(duì)話工廠平臺(tái)的實(shí)際問題出發(fā)，對(duì)小樣本學(xué)習(xí)方法進(jìn)行了系統(tǒng)梳理和研究，給出了 Few-shot Learning 的定義，綜述了其在圖像和 NLP 領(lǐng)域的研究現(xiàn)狀。

針對(duì) Metric Based 系列方法，我們提出了統(tǒng)一的 Encode-Induction-Relation 描述框架，介紹了我們團(tuán)隊(duì)在使用 Few-shot Learning 解決平臺(tái)級(jí)自然語言理解所做的工作，即顯式建模從樣本表示到類表示的歸納能力。

參考文獻(xiàn)

[1] Brenden M. Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua B. Tenenbaum. One shot learning of simple visual concepts. In CogSci, 2011.?

[2] Oriol Vinyals, Charles Blundell, Tim Lillicrap, Daan Wierstra, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pages 3630–3638, 2016.?

[3] Santoro A, Bartunov S, Botvinick M, et al. One-shot learning with memory-augmented neural networks[J]. arXiv preprint arXiv:1605.06065, 2016.?

[4] Koch, Gregory, Richard Zemel, and Ruslan Salakhutdinov. "Siamese neural networks for one-shot image recognition." ICML Deep Learning Workshop. Vol. 2. 2015.?

[5] Snell, Jake, Kevin Swersky, and Richard Zemel. "Prototypical networks for few-shot learning." Advances in Neural Information Processing Systems. 2017.?

[6] Sung, Flood, et al. "Learning to compare: Relation network for few-shot learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.?

[7] Ravi, Sachin, and Hugo Larochelle. "Optimization as a model for few-shot learning." (2016).?

[8] Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.?

[9] Gao, Tianyu, et al. "Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification." (2019).?

[10] Yu, Mo, et al. "Diverse few-shot text classification with multiple metrics." arXiv preprint arXiv:1805.07513 (2018).?

[11] Han, Xu, et al. "FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation." arXiv preprint arXiv:1810.10147 (2018).?

[12] Munkhdalai, Tsendsuren, and Hong Yu. "Meta networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.?

[13] Geng R, Li B, Li Y, et al. Few-Shot Text Classification with Induction Network[J]. arXiv preprint arXiv:1902.10482, 2019.?

[14] https://blog.csdn.net/qq_16234613/article/details/79902085?

[15] https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html#learner-and-meta-learner

聲明：本文版權(quán)歸原作者所有，文章收集于網(wǎng)絡(luò)，為傳播信息而發(fā)，如有侵權(quán)，請(qǐng)聯(lián)系小編及時(shí)處理，謝謝！歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器樣本程序樣本 webrtc噪音樣本數(shù)據(jù)統(tǒng)計(jì)樣本

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4870.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

tigerZH

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

【C語言】超詳講解??指針是個(gè)什么針？（一次性搞定指針問題）

閱讀 1423·2021-09-23 11:21
前端那些小眾而又精美的網(wǎng)站及工具

閱讀 3119·2019-08-30 14:14
canvas動(dòng)畫合集Vue組件

閱讀 3205·2019-08-30 13:56
vue transition 過渡動(dòng)畫從左向右進(jìn)入，從右向左進(jìn)入

閱讀 4156·2019-08-30 11:20
輸入 url 到頁面展現(xiàn)的短短幾秒內(nèi)瀏覽器究竟做了什么？

閱讀 1962·2019-08-29 17:23
采用20/80原則學(xué)習(xí) CSS Grid 布局

閱讀 2778·2019-08-29 16:14
玩兒前端——CSS垂直的那些事兒

閱讀 1708·2019-08-28 18:18
Promise學(xué)習(xí)筆記

閱讀 1499·2019-08-26 12:14

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

小樣本學(xué)習(xí)（Few-shot Learning）綜述

相關(guān)文章

敏捷AI｜NLP技術(shù)在宜信業(yè)務(wù)中的實(shí)踐「構(gòu)建用戶畫像篇」

[DL-醫(yī)療-綜述] 001 綜合指南及實(shí)例（上）

[DL-醫(yī)療-綜述] 002 綜合指南及實(shí)例（中）

[DL-醫(yī)療-綜述] 003 綜合指南及實(shí)例（下）

**深度學(xué)習(xí)-LeCun、Bengio和Hinton的聯(lián)合綜述（上）**

發(fā)表評(píng)論

0條評(píng)論

tigerZH

男|高級(jí)講師

TA的文章

【C語言】超詳講解??指針是個(gè)什么針？（一次性搞定指針問題）

前端那些小眾而又精美的網(wǎng)站及工具

canvas動(dòng)畫合集Vue組件

vue transition 過渡動(dòng)畫從左向右進(jìn)入，從右向左進(jìn)入

輸入 url 到頁面展現(xiàn)的短短幾秒內(nèi)瀏覽器究竟做了什么？

采用20/80原則學(xué)習(xí) CSS Grid 布局

玩兒前端——CSS垂直的那些事兒

Promise學(xué)習(xí)筆記

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

小樣本學(xué)習(xí)（Few-shot Learning）綜述

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！