成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

深度學習是否能擁有“最初的記憶”?——深度向量嵌入的圖表示法

妤鋒シ / 3064人閱讀

摘要:之所以要對遷移學習進行研究,其主要目的之一是為了在已有的深度神經(jīng)網(wǎng)絡的基礎之上,訓練另外的深度神經(jīng)網(wǎng)絡。深度神經(jīng)網(wǎng)絡所抽取到的特征表征通常來說都是向量,向量的長度代表了所使用的神經(jīng)特征數(shù)量。

譯者的話

論文的原標題是“深度向量嵌入的圖表示法”,該標題相對抽象,對沒有一定技術背景的讀者來說相對難以理解。所謂的向量嵌入,在圖像處理領域常見的就是CNN(Convolutional Neural Network),CNN通過對圖像做各種操作之后,將圖像編碼為向量化結構。但是這種獲取向量嵌入的方法只是把模型最后一層的向量化表示給輸出出來,而丟掉了網(wǎng)絡的其他層對輸入文本的特征抽取與表示。而本文原標題中提到的深度向量嵌入的圖表示法的做法稍有不同。圖表示法要把神經(jīng)網(wǎng)絡模型的所有參與編碼的層都輸出出來,從而能夠得到神經(jīng)網(wǎng)絡對輸入數(shù)據(jù)的所有特征表達(也可以稱為嵌入表達)。把所有的嵌入式表達轉(zhuǎn)換為拓撲結構,從而獲取空間上的語義關系,這就是本文要探討的深度向量嵌入的圖表示法。

如果將深度向量嵌入的圖表示法應用到基于CNN的文本分類領域,可以認為一篇文本在經(jīng)過CNN處理的每一層,都會有一定的文本特征被提取出來,并構建成圖。將文本集合送入深度神經(jīng)網(wǎng)絡之后,便會形成一個超大的基于文本特征的大圖,在這個大圖上可以做文本分類聚類等一系列任務。相對于我們目前所使用的基于向量的文本聚類方法,基于圖的聚類方法或許有進一步探索的價值。

摘要

深度神經(jīng)網(wǎng)絡由于擁有非常強大的特征表示能力,作為類比,我們可以近似的認為預先訓練好的神經(jīng)網(wǎng)絡本身是一門非常強大的描述性語言,該語言可以用于很多的用途。最為典型的應用是把深度神經(jīng)網(wǎng)絡特征表征映射到向量空間中去,然后很多傳統(tǒng)的機器學習方法就可以基于這些向量空間進行算法的學習與訓練。在本文中,我們引入了一套方法將經(jīng)深度卷積神經(jīng)網(wǎng)絡編碼的知識映射到拓撲空間中去,來構造圖嵌入空間?;谒鶚嬙斓膱D嵌入空間,我們會概括出其如何持有數(shù)據(jù)實例、如何持有數(shù)據(jù)特征、數(shù)據(jù)實例和數(shù)據(jù)特征之間的關系,以及數(shù)據(jù)特征之間的關系。最后,我們會進行一些初步試驗,并通過圖解析算法來論證如何使用圖嵌入空間。

機器的“記憶遷移”

深度學習模型通過在大規(guī)模、高維度的輸入數(shù)據(jù)集中尋找復雜的模式,來構造規(guī)模龐大的數(shù)據(jù)表示集合。在深度學習訓練過程結束時,訓練好的模型可以看作是一種數(shù)據(jù)表示語言,深度神經(jīng)網(wǎng)絡中每一個神經(jīng)元所學習到的數(shù)據(jù)模式都可以被看作是該數(shù)據(jù)表示語言的詞匯。數(shù)據(jù)模式的抽取和重用也構成了深度學習的一個子領域,被稱為遷移學習(Transfer Learning)。把一個已經(jīng)預先訓練好的深度神經(jīng)網(wǎng)絡中所包含的數(shù)據(jù)模式,以參數(shù)初始化的方式遷移到一個新的深度神經(jīng)網(wǎng)絡中,不僅可以避免對新的深度神經(jīng)網(wǎng)絡參數(shù)進行隨機初始化,還可以實現(xiàn)原有深度神經(jīng)網(wǎng)絡的知識遷移。由此可以預見,遷移學習相對于把新的深度神經(jīng)網(wǎng)絡參數(shù)進行隨機初始化而言,其大幅度提升了網(wǎng)絡的性能,從而為深度神經(jīng)網(wǎng)絡在有限數(shù)據(jù)集上的訓練提供了可能。之所以要對遷移學習進行研究,其主要目的之一是為了在已有的深度神經(jīng)網(wǎng)絡的基礎之上,訓練另外的深度神經(jīng)網(wǎng)絡。另外一個目的是抽取神經(jīng)網(wǎng)絡中對輸入數(shù)據(jù)的特征表征,從而其他的機器學習方法可以在已抽取的特征表征基礎之上,進行進一步的學習訓練。對于后者而言,我們也常把這一過程稱為基于特征抽取的遷移學習,也是本文要重點探討的內(nèi)容。

深度神經(jīng)網(wǎng)絡所抽取到的特征表征通常來說都是向量,向量的長度代表了所使用的神經(jīng)特征數(shù)量。向量嵌入空間可以以實例-屬性對的方式饋入到分類器(典型的如Support Vector Machines)進行分類任務。不過這不是本文研究的重點,在本文中我們把向量嵌入空間轉(zhuǎn)換為一種圖表示法,并且能夠被諸多的算法做進一步的處理,如社區(qū)發(fā)現(xiàn)算法(community detection algorithms)等?;趫D或網(wǎng)絡的算法通常都會聚焦于尋找圖或網(wǎng)絡內(nèi)部各數(shù)據(jù)實例之間的關聯(lián),從而發(fā)現(xiàn)拓撲結構上的內(nèi)在數(shù)據(jù)模式。相對于那些致力于尋找數(shù)據(jù)實例和屬性之間相互關系的算法而言,兩者所尋找的數(shù)據(jù)模式存在著非常顯著的差異。本文提出了一套基于神經(jīng)網(wǎng)絡嵌入的能夠用于構建圖表示法的方法,把社區(qū)發(fā)現(xiàn)算法應用到我們所構建的圖上,并給出性能分析報告。

向量嵌入的圖表示法

向量嵌入通常都是通過捕獲深度卷積神經(jīng)網(wǎng)絡(DCNN)輸出層之前一層的輸出,一般來說都是全連接層。然而,對于深度卷積神經(jīng)網(wǎng)絡而言,網(wǎng)絡前面的層也都是可以用于特征抽取作用,尤其是在輸入數(shù)據(jù)和預先訓練模型的數(shù)據(jù)之間的關聯(lián)性不是非常高的情形下。對于一個用于分類的CNN來說,網(wǎng)絡前面的幾層和后面的層,其行為上的顯著差別是靠近類別輸出層的部分其行為非常接近于判別行為,神經(jīng)元的激活也是零星的、偶發(fā)性的,行為表現(xiàn)干脆利索。而離輸出層較遠的網(wǎng)絡部分,其行為表現(xiàn)更像是描述性的,激活比較頻繁,而且行為表現(xiàn)通常較為模糊,不像靠近輸出層網(wǎng)絡那般干脆利落。

在本文中我們會生成一個圖表示,該圖表示可以捕獲拓撲空間內(nèi)的數(shù)據(jù)屬性(通過頂點和關系來實現(xiàn))。如果我們用單一層的嵌入來完成上述任務的話(典型的是用全連接層嵌入),那么所構建的圖表示的內(nèi)容會非常干澀,因為這種方式其實只選取了激活神經(jīng)元集合中的很少的子集,相對于深度神經(jīng)網(wǎng)絡學習到的所有數(shù)據(jù)模式而言,其丟失了絕大多數(shù)的信息。為了確保所構建的圖表示內(nèi)涵足夠豐富,且能支持網(wǎng)絡分析算法在其上做進一步處理,我們這里在構建圖表示時使用了整個網(wǎng)絡的嵌入,包含了CNN中的所有卷積層和全連接層。在前述條件下,網(wǎng)絡的嵌入空間足夠大,從而生成的圖表示會更大、內(nèi)涵更豐富。

下一部分我們會簡要的介紹全網(wǎng)絡嵌入,并在本部分的結尾給出我們?nèi)绾伟亚度肟臻g映射到拓撲空間,生成圖表示。

全網(wǎng)絡嵌入

全網(wǎng)絡嵌入(FNE: Full Network Embedding)會對網(wǎng)絡的輸入數(shù)據(jù)實例生成相對應的特征表示,該特征表示是通過捕獲卷積神經(jīng)網(wǎng)絡中每一個卷積層和全連接層的激活值構成。為了把每一層所找到的特征集成一體,F(xiàn)NE涵蓋了一系列的處理步驟,整個處理過程如圖1所示。

在抽取到每一層的激活值之后,F(xiàn)NE對卷積層的激活輸出做了空間均值池化操作。通過該操作之后,每一個卷積層的神經(jīng)元就可以輸出嵌入空間里的單一標量值(全連接層也是同樣的道理)。經(jīng)過空間池化之后,F(xiàn)NE還進行了一個特征標準化操作。這一步變換的主要目的就是要使得不同神經(jīng)元輸出的標量值標準化,從而使得每一個神經(jīng)元的激活值都有一個統(tǒng)一的值域范圍,而不再關注其來源于CNN的哪一層。如果不做標準化的話,靠近網(wǎng)絡輸出層的向量表示將會主導整個嵌入表示,因為其激活后的權值比較大,在嵌入向量空間里面占比較高。

最后,F(xiàn)NE把所抽取到的特征進行離散化,把所有的特征值都映射到[-1, 0, 1]三元數(shù)值中去。這一操作可以減少噪音,修正嵌入空間。在FNE中,離散操作是通過閾值元組(-0.25, 0.15)來實現(xiàn)的。對于任意給定的輸入數(shù)據(jù)而言,該元組決定了特征出現(xiàn)與否(1表示特征激活值很高,-1表示特征激活值很低)。在我們的實驗中,我們按實際需要設定的閾值元組為(-2.0, 2.0)來控制圖的稀疏度適中,從而方便網(wǎng)絡分析算法的應用。

圖表示法

FNE對每一個輸入數(shù)據(jù)都生成了向量表示,其特征值取值為-1、0或1。這些值代表了特定神經(jīng)元對輸入數(shù)據(jù)過濾之后的相關性,-1意味著特征未出現(xiàn)、0代表特征無關、1代表特征出現(xiàn)。在本文中,我們會基于這些嵌入的特征表征來構建拓撲圖,并且使用相關算法來挖掘圖中數(shù)據(jù)實例與數(shù)據(jù)實例之間的關系,從而尋找到拓撲圖中所編碼的一些隱藏內(nèi)部信息。

頂點

數(shù)據(jù)實例和特征構成的邊

特征與特征之間連成邊

實證分析

為了評估深度嵌入空間的圖表示法,我們的模型架構為VGG16CNN(詳情可以參考文獻21),并且在ImageNet數(shù)據(jù)集上進行預訓練。在預訓練的模型上,我們依次處理了以下四個不同的數(shù)據(jù)集。數(shù)據(jù)集的詳細介紹請參見表1:

? MIT室內(nèi)景觀識別數(shù)據(jù)集,該數(shù)據(jù)集包含67類不同的室內(nèi)景觀;

? Oxford花類數(shù)據(jù)集,包含102類不同的花;

? 可描述的紋理數(shù)據(jù)集,該數(shù)據(jù)集的紋理可以分為47中類目;

? Oulu Knots數(shù)據(jù)集,該數(shù)據(jù)集是一系列來源于杉樹林的樹木結圖片,類別按照Nordic Standards進行劃分。

對于這些數(shù)據(jù)集中的每一張圖片,我們都會獲取其全網(wǎng)絡嵌入表示。在VGG16架構下,經(jīng)嵌入之后我們得到包含12416個特征向量,并基于這些向量來構建數(shù)據(jù)實例的圖表示。

為了探索圖表示的內(nèi)在隱含信息,我們對圖表示應用社區(qū)發(fā)現(xiàn)算法(Fluid Communities (FluidC) algorithm)。我們之所以選擇這個算法,主要有三方面原因:其一是因為該算法是基于有效標簽傳播方法,性能上優(yōu)于傳統(tǒng)的LPA算法;其二該方法還能允許我們指定聚類類別數(shù)目;其三該方法經(jīng)過少量變更就可以適用于我們的實驗環(huán)境。由于圖是由數(shù)據(jù)實例和特征構成,但是只有數(shù)據(jù)實例才有標簽,特征不存在標簽,聚類效果的評價只能在數(shù)據(jù)實例頂點上實現(xiàn)。因此我們必須確保社區(qū)發(fā)現(xiàn)算法所挖掘出來的“社區(qū)”至少包含一個數(shù)據(jù)實例頂點。要實現(xiàn)這個需求,我們必須對FluidC算法進行修改,強制使其按照數(shù)據(jù)實例頂點來進行“社區(qū)”的初始化。

通過算法所挖掘的類簇,與原有數(shù)據(jù)集的標簽進行相似度計算,來評價算法的有效性。我們使用NMI和AMI兩種方法來衡量最終的結果。對每一個數(shù)據(jù)集所做的實驗結果匯總如圖2所示。

所有的實驗都是在ImageNet2012上進行預訓練,然后使用VGG16模型進行嵌入來完成,實驗結果可以在網(wǎng)上免費獲取,其中特征抽取過程是用Caffe來實現(xiàn)。圖算法的實現(xiàn)是用NetworkX v2.0里面的FluidC。

相關研究

圖和深度神經(jīng)網(wǎng)絡的相關性已經(jīng)有前人進行了研究,不過大多數(shù)研究都是從不同的角度來展開。不同于大多數(shù)研究來訓練DNN來處理圖數(shù)據(jù),本文所提出的方法是把CNN進行圖像嵌入的過程進行圖表示。舉例來說,DeepWalk使用圖內(nèi)的隨機漫步,把獲取的結果送入SkipGram模型,然后評估社區(qū)發(fā)現(xiàn)算法在這些圖上的效果。和DeepWalk類似,Cao et al的研究也是把處理圖的結果作為輸入,不同的是其使用了有權圖上的概率性方法來獲取圖,并將其送入自編碼器。而我們的研究是在圖片數(shù)據(jù)集上使用社區(qū)發(fā)現(xiàn)算法,就我們所知,目前還沒有人進行相似的研究。

結論

如何基于深度卷積神經(jīng)網(wǎng)絡的嵌入來構建圖表示法,本文所提出的方法只是第一步。我們詳細給出了如何構建包含了圖片和特征的圖表示,如何用拓撲結構表現(xiàn)圖片和特征之間的關系,以及特征與特征之間的關系。通過這些工作,深度學習模型所獲取的知識表示能夠方便的供其他算法進行進一步處理。

實驗結果非常振奮人心,像FluidC這樣的基于拓撲結構的算法完全有能力從空間拓撲信息中識別出圖片的類別。聚類結果可以通過網(wǎng)絡解析工具來搜索,和基于傳統(tǒng)的運行于向量空間的算法(如KMeans)大為不同。實際上,深度的分析可以看出,F(xiàn)luidC算法能夠利用頂點之間的路徑來聚類,因此能夠聚合圖內(nèi)所有可能的路徑信息,而以KMeans為代表的基于距離的方法就不能這種信息。如果考慮到運行其他不同類型的算法,那么本文所提出的方法就非常有意義,因為它開啟了利用和復用預先訓練的深度神經(jīng)網(wǎng)絡嵌入結果,來進行機器學習的新大門。在更好的理解深度表征的道路上,我們只是邁出了一小步,如何利用經(jīng)過神經(jīng)網(wǎng)絡所編碼的知識進行更加廣泛開放的研究,需要投入更多的研究力量。

未來展望

本文所展示的實驗更多是探索性的,用于驗證深度向量嵌入用圖來表示的可行性??陀^理性的說,把本文中所提出的方法和其他一些替代性方法比較,如與基于向量的聚類方法比較,其結果還是讓人滿意的。然而聚類結果的評價一直都是有爭議的話題,因為聚類結果并不是唯一的,也許有其他維度給出完全不同的聚類結果。

對本文提出的方法的更有意義的評價是看圖所能捕獲到的語義信息。為了這樣的設想,我們考慮擴展模型,讓其包含一些有向有權邊,以及本體關系。一旦實現(xiàn)這樣的目的,我們就可以在這樣的圖表示法之上進行一些推理方法,從而評價圖表示法所捕獲到的語義信息的豐富程度和有用性。

參考文獻

[1] Azizpour, H., A. S. Razavian, J. Sullivan, A. Maki, and S. Carlsson (2016). Factors of transferability for a generic convnet representation. IEEE Transactions on Pattern Analysis and Machine Intelligence 38(9), 1790–1802.

[2] Branson, S., G. Van Horn, S. Belongie, and P. Perona (2014). Bird species categorization using pose normalized deep convolutional nets. arXiv preprint arXiv:1406.2952.

[3] Cao, S., W. Lu, and Q. Xu (2016). Deep neural networks for learning graph representations. In AAAI, pp. 1145–1152.

[4] Cimpoi, M., S. Maji, I. Kokkinos, S. Mohamed, and A. Vedaldi (2014). Describing textures in the wild. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3606–3613.

[5] Donahue, J., Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell (2014). Decaf: A deep convolutional activation feature for generic visual recognition. In Icml, Volume 32, pp. 647–655.

[6] Garcia-Gasulla, D., F. Par′es, A. Vilalta, J. Moreno, E. Ayguad′e, J. Labarta, U. Cort′es, and T. Suzumura (2017). On the behavior of convolutional nets for feature extraction. arXiv preprint arXiv:1703.01127.

[7] Garcia-Gasulla, D., A. Vilalta, F. Par′es, J. Moreno, E. Ayguad′e, J. Labarta, U. Cort′es, and T. Suzumura (2017). An out-of-the-box full-network embedding for convolutional neural networks. arXiv preprint arXiv:1705.07706.

[8] Ge, W. and Y. Yu (2017). Borrowing treasures from the wealthy: Deep transfer learning through selective joint fine-tuning. arXiv preprint arXiv:1702.08690.

[9] Gong, Y., L. Wang, R. Guo, and S. Lazebnik (2014). Multi-scale orderless pooling of deep convolutional activation features. In European conference on computer vision, pp. 392–407. Springer.

[10] Liu, C., Y. Cao, Y. Luo, G. Chen, V. Vokkarane, and Y. Ma (2016). Deepfood: Deep learning-based food image recognition for computer-aided dietary assessment. In International Conference on Smart Homes and Health Telematics, pp. 37–48. Springer.

[11] Mousavian, A. and J. Kosecka (2015). Deep convolutional features for image based retrieval and scene categorization. arXiv preprint arXiv:1509.06033.

[12] Nilsback, M.-E. and A. Zisserman (2008). Automated flower classification over a large number of classes. In Computer Vision, Graphics & Image Processing, 2008. ICVGIP’08. Sixth Indian Conference on, pp. 722–729. IEEE.

[13] Par′es, F., D. Garcia-Gasulla, A. Vilalta, J. Moreno, E. Ayguad′e, J. Labarta, U. Cort′es, and T. Suzumura (2017). Fluid communities: A community detection algorithm. arXiv preprint arXiv:1703.09307.

[14] Perozzi, B., R. Al-Rfou, and S. Skiena (2014). Deepwalk: Online learning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 701–710. ACM.

[15] Quattoni, A. and A. Torralba (2009). Recognizing indoor scenes. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pp. 413–420. IEEE.

[16] Ren, R., T. Hung, and K. C. Tan (2017). A generic deep-learning-based approach for automated surface inspection. IEEE Transactions on Cybernetics.

[17] Russakovsky, O., J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. (2015). Imagenet large scale visual recognition challenge. International Journal of Computer Vision 115(3), 211–252.

[18] Sharif Razavian, A., H. Azizpour, J. Sullivan, and S. Carlsson (2014). Cnn features off-the-shelf: an astounding baseline for recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 806–813.

[19] Silv′en, O., M. Niskanen, and H. Kauppinen (2003). Wood inspection with non-supervised clustering. Machine Vision and Applications 13(5), 275–285.

[20] Simon, M. and E. Rodner (2015). Neural activation constellations: Unsupervised part model discovery with convolutional networks. In Proceedings of the IEEE International Conference on Computer Vision, pp. 1143–1151.

[21] Simonyan, K. and A. Zisserman (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.

[22] Xu, Z., S. Huang, Y. Zhang, and D. Tao (2015). Augmenting strong supervision using web data for fine-grained categorization. In Proceedings of the IEEE International Conference on Computer Vision, pp. 2524–2532.

文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19746.html

相關文章

  • 深度學習在股票市場應用

    摘要:在過去的幾個月中,我對深度學習非常著迷,特別是它在自然語言處理中的應用。對這篇文章可以簡單總結如下如果我們學習莎士比亞的作品,然后一個字一個字的進行學習。然后這個模型會產(chǎn)生一大堆看起來像莎士比亞風格的文字。 作者:chen_h微信號 & QQ:862251340微信公眾號:coderpai簡書地址:http://www.jianshu.com/p/f9ca... 本文的代碼請點擊這里...

    Yangder 評論0 收藏0
  • 深度學習在推薦領域應用

    摘要:調(diào)研首先要確定微博領域的數(shù)據(jù),關于微博的數(shù)據(jù)可以這樣分類用戶基礎數(shù)據(jù)年齡性別公司郵箱地點公司等。這意味著深度學習在推薦領域應用的關鍵技術點已被解決。 當2012年Facebook在廣告領域開始應用定制化受眾(Facebook Custom Audiences)功能后,受眾發(fā)現(xiàn)這個概念真正得到大規(guī)模應用,什么叫受眾發(fā)現(xiàn)?如果你的企業(yè)已經(jīng)積累了一定的客戶,無論這些客戶是否關注你或者是否跟你在Fa...

    tanglijun 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<