成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

[論文簡讀] Web Content Extraction Using Clustering

levinit / 1674人閱讀

摘要:實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)數(shù)據(jù)集數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁,從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁面這最多也就五類吧,而且也就五百個(gè),好像有點(diǎn)少了吧結(jié)果與驗(yàn)證性能指標(biāo)這這這比較文本長度就了那不是只要包含新聞?wù)牟痪秃昧恕?/p>

《Web Content Extraction Using Clustering with Web Structure》
引用 Huang X, Gao Y, Huang L, et al. Web Content Extraction Using Clustering with Web Structure[C]// International Symposium on Neural Networks. Springer, Cham, 2017:95-103.
華中科技大學(xué) 2017年 ISNN會議論文
簡介

該文章中文簡稱為基于WEB結(jié)構(gòu)的聚類Web內(nèi)容提取,我在通讀全文后發(fā)現(xiàn),作者給聚類這件事的筆墨并不多,占文章篇幅更多的是如何比較網(wǎng)頁之間的相似性,聚類只是之后處理的一種手段。
該文章提出了一種內(nèi)容提取算法,如下

從不同網(wǎng)站中收集網(wǎng)頁進(jìn)行聚類

將網(wǎng)頁解析成DOM樹

根據(jù)節(jié)點(diǎn)的位置和相同深度的節(jié)點(diǎn)數(shù)量以及DOM樹的深度分配權(quán)重

根據(jù)給定的公式計(jì)算兩個(gè)頁面之間的相似度

從聚類得到的同一組頁面中,刪除相同的頁面部分,剩余的便是WEB內(nèi)容。

聚類算法

K-means 需要在一開始時(shí)便分配聚簇?cái)?shù)量,因此不適用
Canopy 聚類算法(一個(gè)快速,簡單,但沒有那么精確的算法,算法簡介參考這篇文章)

作者最終選擇了Canopy算法,因?yàn)樵撍惴ㄟ壿嫼唵?,易于收斂,不過作者沒有給出Canopy算法中的T1和T2是如何取的,應(yīng)該也知道這一塊會被編輯詬病吧。

網(wǎng)頁結(jié)構(gòu)相似度量方法

這一塊就是全文的重點(diǎn)了,聚類只是用來獲得與目標(biāo)頁面相似的一些頁面,便于第二步刪除相似部分(如頂欄/側(cè)欄/廣告)。

首先來看一下最簡單的一個(gè)分配權(quán)重和比較相似度的方法:

假設(shè)整個(gè)DOM樹的權(quán)重為1,深度為1的節(jié)點(diǎn)數(shù)量為N,因此,每個(gè)節(jié)點(diǎn)得到的權(quán)重為1 / N;

將節(jié)點(diǎn)獲得的權(quán)重平均分配給他的子節(jié)點(diǎn)。

迭代地分配權(quán)重到達(dá)葉節(jié)點(diǎn)。

對于葉節(jié)點(diǎn)x和y,如果x等于y,則x和y的相似度是它們得到的權(quán)重,否則,相似性為0.對于非葉節(jié)點(diǎn)x和y,如果x等于y,相似度是其子節(jié)點(diǎn)相似度的總和,如果不相似,則相似度為0。
定義:對于非葉節(jié)點(diǎn)x和y,如果標(biāo)記名,元素集值和兩個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)相同,則 x = y

兩個(gè)DOM樹的相似性等于其根節(jié)點(diǎn)的相似性。

這個(gè)算法會遇到一種情況,就是在兩個(gè)比較的dom樹中,當(dāng)b和c分支都被判定相同,而a分支被判定不同(也就是說兩個(gè)網(wǎng)頁除了頂部欄之外其他都一樣),兩個(gè)網(wǎng)頁的相似度就會足夠的大,而被判定為相似的頁面(嗯?難道不是嗎?)

于是,作者提出了基于權(quán)重動(dòng)態(tài)規(guī)劃的結(jié)構(gòu)相似性測量方法(SMDPW)

作者發(fā)現(xiàn)靜態(tài)區(qū)域始終位于頁面的頂部和底部,而內(nèi)容區(qū)域始終位于中心。換句話說,區(qū)域越靠近頁面的末端,它就越可能是靜態(tài)區(qū)域。因此,權(quán)重通過動(dòng)態(tài)編程分配,越接近區(qū)域所在頁面的末端,權(quán)重越大。此分布策略僅適用于深度為1的節(jié)點(diǎn)。其他節(jié)點(diǎn)獲得的權(quán)重是通過平均分配其父節(jié)點(diǎn)的權(quán)重來計(jì)算的。(蛤?這不合理吧,那a的權(quán)重不就偏大了,你把b的權(quán)重調(diào)大我都能接受啊)

提取內(nèi)容

emmm,作者只用了一小段文字描述,反正就是在找到相似的頁面的基礎(chǔ)上,沿著DOM樹進(jìn)行對比,刪除相同的或者相似度高的內(nèi)容,剩下的就是data了。

實(shí)驗(yàn)結(jié)果 實(shí)驗(yàn)數(shù)據(jù)集

數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁,從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁面(???這最多也就五類吧,而且也就五百個(gè),好像有點(diǎn)少了吧)
結(jié)果與驗(yàn)證

性能指標(biāo)

what? 這?這?這? 比較文本長度就OK了? 那不是只要包含新聞?wù)牟痪秃昧恕?/em>

算法對比

說好的中文網(wǎng)頁呢……難道是CNN中文網(wǎng)?

總結(jié)

實(shí)在有好多槽點(diǎn)想吐一吐,算了,人家畢竟是985發(fā)表的ISNN會議文章,尊重作者吧。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/96723.html

相關(guān)文章

  • [論文簡讀] Web Content Extraction Through Machine Lear

    摘要:分塊效果如圖所示聚類由于不同網(wǎng)頁之間設(shè)計(jì)和布局存在較大差異,作者選擇了作為聚類算法來解決簇?cái)?shù)目未知簇形狀未知噪聲等問題未給出距離函數(shù)。 《Web Content Extraction Through Machine Learning》 通過機(jī)器學(xué)習(xí)來提取網(wǎng)頁內(nèi)容 2014年,未見期刊會議上登載,作者 Ziyan Zhou @stanford.edu 簡介 數(shù)據(jù)集 以新聞文章網(wǎng)站為主數(shù)...

    leonardofed 評論0 收藏0
  • 論文簡讀】 Deep web data extraction based on visual

    摘要:第一階段設(shè)置卷積層和匯集層以學(xué)習(xí)圖像的特征。除了為輸出設(shè)置最后一個(gè)完全連接之外,第三階段設(shè)置多個(gè)連接層以過濾先前層學(xué)習(xí)的特征。據(jù)區(qū)域檢測的標(biāo)準(zhǔn),如果,則數(shù)據(jù)區(qū)域被視為正樣本。 《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大學(xué) 2017 AIHC會議登載引用 Liu J, Li...

    shiguibiao 評論0 收藏0
  • [論文簡讀] Deep Neural Networks for Web Page Informati

    摘要:將候選框的坐標(biāo)投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類為預(yù)定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁信息提取 簡單介紹 本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器(wrapper) 本文的幾個(gè)貢獻(xiàn)o 提出...

    kel 評論0 收藏0
  • [論文簡讀] Deep Neural Networks for Web Page Informati

    摘要:將候選框的坐標(biāo)投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類為預(yù)定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁信息提取 簡單介紹 本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器(wrapper) 本文的幾個(gè)貢獻(xiàn)o 提出...

    xiangzhihong 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<