[論文簡讀] Web Content Extraction Using Clustering

levinit 發(fā)布于2019-08-23 10:49 / 1674人閱讀

摘要：實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)數(shù)據(jù)集數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁，從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁面這最多也就五類吧，而且也就五百個(gè)，好像有點(diǎn)少了吧結(jié)果與驗(yàn)證性能指標(biāo)這這這比較文本長度就了那不是只要包含新聞?wù)牟痪秃昧恕?/p>

《Web Content Extraction Using Clustering with Web Structure》
引用 Huang X, Gao Y, Huang L, et al. Web Content Extraction Using Clustering with Web Structure[C]// International Symposium on Neural Networks. Springer, Cham, 2017:95-103.
華中科技大學(xué) 2017年 ISNN會議論文

簡介

該文章中文簡稱為基于WEB結(jié)構(gòu)的聚類Web內(nèi)容提取，我在通讀全文后發(fā)現(xiàn)，作者給聚類這件事的筆墨并不多，占文章篇幅更多的是如何比較網(wǎng)頁之間的相似性，聚類只是之后處理的一種手段。
該文章提出了一種內(nèi)容提取算法，如下

從不同網(wǎng)站中收集網(wǎng)頁進(jìn)行聚類

將網(wǎng)頁解析成DOM樹

根據(jù)節(jié)點(diǎn)的位置和相同深度的節(jié)點(diǎn)數(shù)量以及DOM樹的深度分配權(quán)重

根據(jù)給定的公式計(jì)算兩個(gè)頁面之間的相似度

從聚類得到的同一組頁面中，刪除相同的頁面部分，剩余的便是WEB內(nèi)容。

聚類算法

K-means 需要在一開始時(shí)便分配聚簇?cái)?shù)量，因此不適用
Canopy 聚類算法（一個(gè)快速，簡單，但沒有那么精確的算法，算法簡介參考這篇文章）

作者最終選擇了Canopy算法，因?yàn)樵撍惴ㄟ壿嫼唵?，易于收斂，不過作者沒有給出Canopy算法中的T1和T2是如何取的，應(yīng)該也知道這一塊會被編輯詬病吧。

網(wǎng)頁結(jié)構(gòu)相似度量方法

這一塊就是全文的重點(diǎn)了，聚類只是用來獲得與目標(biāo)頁面相似的一些頁面，便于第二步刪除相似部分（如頂欄/側(cè)欄/廣告）。

首先來看一下最簡單的一個(gè)分配權(quán)重和比較相似度的方法：

假設(shè)整個(gè)DOM樹的權(quán)重為1，深度為1的節(jié)點(diǎn)數(shù)量為N，因此，每個(gè)節(jié)點(diǎn)得到的權(quán)重為1 / N;

將節(jié)點(diǎn)獲得的權(quán)重平均分配給他的子節(jié)點(diǎn)。

迭代地分配權(quán)重到達(dá)葉節(jié)點(diǎn)。

對于葉節(jié)點(diǎn)x和y，如果x等于y，則x和y的相似度是它們得到的權(quán)重，否則，相似性為0.對于非葉節(jié)點(diǎn)x和y，如果x等于y，相似度是其子節(jié)點(diǎn)相似度的總和，如果不相似，則相似度為0。
定義：對于非葉節(jié)點(diǎn)x和y，如果標(biāo)記名，元素集值和兩個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)相同，則 x = y

兩個(gè)DOM樹的相似性等于其根節(jié)點(diǎn)的相似性。

這個(gè)算法會遇到一種情況，就是在兩個(gè)比較的dom樹中，當(dāng)b和c分支都被判定相同，而a分支被判定不同（也就是說兩個(gè)網(wǎng)頁除了頂部欄之外其他都一樣），兩個(gè)網(wǎng)頁的相似度就會足夠的大，而被判定為相似的頁面（嗯？難道不是嗎？）

于是，作者提出了基于權(quán)重動(dòng)態(tài)規(guī)劃的結(jié)構(gòu)相似性測量方法（SMDPW）

作者發(fā)現(xiàn)靜態(tài)區(qū)域始終位于頁面的頂部和底部，而內(nèi)容區(qū)域始終位于中心。換句話說，區(qū)域越靠近頁面的末端，它就越可能是靜態(tài)區(qū)域。因此，權(quán)重通過動(dòng)態(tài)編程分配，越接近區(qū)域所在頁面的末端，權(quán)重越大。此分布策略僅適用于深度為1的節(jié)點(diǎn)。其他節(jié)點(diǎn)獲得的權(quán)重是通過平均分配其父節(jié)點(diǎn)的權(quán)重來計(jì)算的。（蛤？這不合理吧，那a的權(quán)重不就偏大了，你把b的權(quán)重調(diào)大我都能接受啊）

提取內(nèi)容

emmm，作者只用了一小段文字描述，反正就是在找到相似的頁面的基礎(chǔ)上，沿著DOM樹進(jìn)行對比，刪除相同的或者相似度高的內(nèi)容，剩下的就是data了。

實(shí)驗(yàn)結(jié)果 實(shí)驗(yàn)數(shù)據(jù)集

數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁，從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁面（？？？這最多也就五類吧，而且也就五百個(gè)，好像有點(diǎn)少了吧）
結(jié)果與驗(yàn)證

性能指標(biāo)

what？這？這？這？比較文本長度就OK了？那不是只要包含新聞?wù)牟痪秃昧恕?/em>

算法對比

說好的中文網(wǎng)頁呢……難道是CNN中文網(wǎng)？
總結(jié)
實(shí)在有好多槽點(diǎn)想吐一吐，算了，人家畢竟是985發(fā)表的ISNN會議文章，尊重作者吧。

GPU云服務(wù)器云服務(wù)器 Extraction Clustering using using_namespace_std

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/96723.html

上一篇：摸索 JS 內(nèi)深拷貝的最佳實(shí)踐

下一篇：麻煩把JS的事件環(huán)給我安排一下?。。?/a>

相關(guān)文章

 [論文簡讀] Web Content Extraction Through Machine Lear

摘要：分塊效果如圖所示聚類由于不同網(wǎng)頁之間設(shè)計(jì)和布局存在較大差異，作者選擇了作為聚類算法來解決簇?cái)?shù)目未知簇形狀未知噪聲等問題未給出距離函數(shù)。《Web Content Extraction Through Machine Learning》通過機(jī)器學(xué)習(xí)來提取網(wǎng)頁內(nèi)容 2014年，未見期刊會議上登載，作者 Ziyan Zhou @stanford.edu 簡介數(shù)據(jù)集以新聞文章網(wǎng)站為主數(shù)...

leonardofed 2019-08-23 10:38 評論0 收藏0

【論文簡讀】 Deep web data extraction based on visual

摘要：第一階段設(shè)置卷積層和匯集層以學(xué)習(xí)圖像的特征。除了為輸出設(shè)置最后一個(gè)完全連接之外，第三階段設(shè)置多個(gè)連接層以過濾先前層學(xué)習(xí)的特征。據(jù)區(qū)域檢測的標(biāo)準(zhǔn)，如果，則數(shù)據(jù)區(qū)域被視為正樣本。《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大學(xué) 2017 AIHC會議登載引用 Liu J, Li...

shiguibiao 2019-08-23 10:44 評論0 收藏0

[論文簡讀] Deep Neural Networks for Web Page Informati

摘要：將候選框的坐標(biāo)投影到最終的特征張量，并使用提取結(jié)果向量。最后，使用的線性模型將向量分類為預(yù)定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁信息提取簡單介紹本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器（wrapper）本文的幾個(gè)貢獻(xiàn)o 提出...

kel 2019-08-22 18:30 評論0 收藏0

[論文簡讀] Deep Neural Networks for Web Page Informati

摘要：將候選框的坐標(biāo)投影到最終的特征張量，并使用提取結(jié)果向量。最后，使用的線性模型將向量分類為預(yù)定義的類。 [論文簡讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁信息提取簡單介紹本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺信息、文本信息的多網(wǎng)站通用包裝器（wrapper）本文的幾個(gè)貢獻(xiàn)o 提出...

xiangzhihong 2019-07-30 16:58 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

levinit

男|高級講師

我要關(guān)注我要私信

TA的文章
閱讀更多

樹莓派學(xué)習(xí)筆記（五）串口通信

閱讀 2925·2021-09-27 13:35

谷歌冷門功能“書簽”將于 9 月 30 日停用，瀏覽器和地圖不受影響

閱讀 649·2021-09-23 11:22

css繪制各種各樣的形狀圖形

閱讀 2925·2019-08-30 15:54

五分鐘用CSS創(chuàng)造一只萌萌噠的大熊貓

閱讀 1642·2019-08-29 16:27

css3媒體查詢

閱讀 2495·2019-08-29 15:05

webpack4.x升級摘要

閱讀 2385·2019-08-23 18:11

vue + iview table和多選同時(shí)用時(shí)重新給table的data賦值，此時(shí)賦值若為空則會報(bào)

閱讀 3552·2019-08-23 16:32

JavaScript基礎(chǔ)總結(jié)（一）

閱讀 2968·2019-08-23 14:56

最新活動(dòng)

**[論文簡讀] Web Content Extraction Through Machine Lear**

**【論文簡讀】 Deep web data extraction based on visual**

**[論文簡讀] Deep Neural Networks for Web Page Informati**

**[論文簡讀] Deep Neural Networks for Web Page Informati**

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

[論文簡讀] Web Content Extraction Using Clustering

相關(guān)文章

發(fā)表評論

0條評論

levinit

男|高級講師

TA的文章

樹莓派學(xué)習(xí)筆記（五）串口通信

谷歌冷門功能“書簽”將于 9 月 30 日停用，瀏覽器和地圖不受影響

css繪制各種各樣的形狀圖形

五分鐘用CSS創(chuàng)造一只萌萌噠的大熊貓

css3媒體查詢

webpack4.x升級摘要

vue + iview table和多選同時(shí)用時(shí)重新給table的data賦值，此時(shí)賦值若為空則會報(bào)

JavaScript基礎(chǔ)總結(jié)（一）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

[論文簡讀] Web Content Extraction Using Clustering

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！