摘要:第一階段設(shè)置卷積層和匯集層以學(xué)習(xí)圖像的特征。除了為輸出設(shè)置最后一個(gè)完全連接之外,第三階段設(shè)置多個(gè)連接層以過(guò)濾先前層學(xué)習(xí)的特征。據(jù)區(qū)域檢測(cè)的標(biāo)準(zhǔn),如果,則數(shù)據(jù)區(qū)域被視為正樣本。
《Deep web data extraction based on visual information processing》簡(jiǎn)介
作者 J Liu 上海海事大學(xué) 2017 AIHC會(huì)議登載
引用 Liu J, Lin L, Cai Z, et al. Deep web data extraction based on visual information processing[J]. Journal of Ambient Intelligence & Humanized Computing, 2017(1):1-11.
一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的數(shù)據(jù)區(qū)域定位方法
結(jié)合視覺(jué)信息進(jìn)行網(wǎng)頁(yè)的分割(作者命名為VIBS)
CNN網(wǎng)絡(luò)結(jié)構(gòu)由3個(gè)階段組成,如圖所示 。第一階段設(shè)置卷積層和匯集層以學(xué)習(xí)圖像的特征。第二階段是設(shè)置展平圖層所必需的,展平圖層會(huì)將卷積圖層和合并圖層生成的特征圖轉(zhuǎn)換為一維矢量,以計(jì)算完整的連接圖層。除了為輸出設(shè)置最后一個(gè)完全連接之外,第三階段設(shè)置多個(gè)連接層以過(guò)濾先前層學(xué)習(xí)的特征。
網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)使用13級(jí)CNN,包括5個(gè)采樣層(S),6個(gè)卷積層(C)和2個(gè)完全連接層。
據(jù)區(qū)域檢測(cè)的標(biāo)準(zhǔn)IOU,如果IOU ?> 50%,則數(shù)據(jù)區(qū)域被視為正樣本。
區(qū)域定位主要步驟流程圖如下
2、基于視覺(jué)信息的網(wǎng)頁(yè)分割方法 VIBS 3、實(shí)驗(yàn)結(jié)果和分析 數(shù)據(jù)集(Lianjia、Complanet、Fangjia)58,500個(gè)樣本數(shù)據(jù)集,其中有195種具有不同大小和不同位置的圖像樣本,包含數(shù)據(jù)區(qū)域,總共300個(gè)組。
實(shí)驗(yàn)結(jié)果 總結(jié)總體看下來(lái),文章的創(chuàng)新意義大于實(shí)際意義吧,這么高的精確度,感覺(jué)像是過(guò)擬合了,而且速度不可能這么快,應(yīng)該是把網(wǎng)頁(yè)先行保存成圖片了的,文章寫(xiě)得很不錯(cuò),對(duì)比什么的體系也比較完善,就是有些地方?jīng)]有講清楚,比如能否divide的判定等。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/96637.html
摘要:將候選框的坐標(biāo)投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類(lèi)為預(yù)定義的類(lèi)。 [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁(yè)信息提取 簡(jiǎn)單介紹 本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺(jué)信息、文本信息的多網(wǎng)站通用包裝器(wrapper) 本文的幾個(gè)貢獻(xiàn)o 提出...
摘要:將候選框的坐標(biāo)投影到最終的特征張量,并使用提取結(jié)果向量。最后,使用的線性模型將向量分類(lèi)為預(yù)定義的類(lèi)。 [論文簡(jiǎn)讀] Deep Neural Networks for Web Page Information Extraction 基于深層神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)頁(yè)信息提取 簡(jiǎn)單介紹 本文主要介紹了一種基于神經(jīng)網(wǎng)絡(luò)并結(jié)合視覺(jué)信息、文本信息的多網(wǎng)站通用包裝器(wrapper) 本文的幾個(gè)貢獻(xiàn)o 提出...
摘要:實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)數(shù)據(jù)集數(shù)據(jù)集都是新聞?lì)惥W(wǎng)頁(yè),從五個(gè)中文新聞網(wǎng)站中收集一百個(gè)頁(yè)面這最多也就五類(lèi)吧,而且也就五百個(gè),好像有點(diǎn)少了吧結(jié)果與驗(yàn)證性能指標(biāo)這這這比較文本長(zhǎng)度就了那不是只要包含新聞?wù)牟痪秃昧恕? 《Web Content Extraction Using Clustering with Web Structure》引用 Huang X, Gao Y, Huang L, et al. ...
閱讀 1586·2021-11-24 09:39
閱讀 1090·2021-11-22 15:11
閱讀 2243·2021-11-19 11:35
閱讀 1657·2021-09-13 10:37
閱讀 2516·2021-09-03 10:47
閱讀 2190·2021-08-30 09:47
閱讀 1662·2021-08-20 09:39
閱讀 2942·2019-08-30 14:13