網(wǎng)絡(luò)爬蟲之html2md

Aldous 發(fā)布于2019-08-23 11:51 / 2815人閱讀

摘要：前言上周利用爬取的網(wǎng)絡(luò)文章，一直未能利用實(shí)現(xiàn)轉(zhuǎn)化，整整一周時(shí)間才得以解決。實(shí)現(xiàn)為何突然會(huì)選擇來(lái)實(shí)現(xiàn)，剛好最近在看書籍，里面有提到爬蟲，解析爬取的內(nèi)容，書中提到利用模塊，遂果斷瀏覽其文檔，其實(shí)就是的翻版，這下可方便了，心中大喜。

前言

上周利用java爬取的網(wǎng)絡(luò)文章，一直未能利用java實(shí)現(xiàn)html轉(zhuǎn)化md，整整一周時(shí)間才得以解決。

雖然本人的博客文章數(shù)量不多，但是絕不齒于手動(dòng)轉(zhuǎn)換，畢竟手動(dòng)轉(zhuǎn)換浪費(fèi)時(shí)間，把那些時(shí)間用來(lái)做些別的也是好的。

設(shè)計(jì)思路 Java實(shí)現(xiàn)

一開始的思路是想著用java來(lái)解析html，想著各種標(biāo)簽解析、符號(hào)解析、正則替換等等，決定在github上搜索一波，果然是有前輩實(shí)現(xiàn)過(guò)，頓時(shí)欣喜若狂；

代碼地址

下載后如下圖

可利用htmlToHexoMd方法測(cè)試運(yùn)行

可能作者是在linux服務(wù)器上定義的路徑，我測(cè)試的時(shí)候一直提示路徑問(wèn)題，結(jié)果被迫更改轉(zhuǎn)化的路徑代碼，

調(diào)試運(yùn)行后生成的md文件，本地啟動(dòng)hexo服務(wù)，上傳剛剛生成md文件，網(wǎng)頁(yè)瀏覽，不滿，棄之。

NodeJS實(shí)現(xiàn)

為何突然會(huì)選擇NodeJS來(lái)實(shí)現(xiàn)，剛好最近在看node書籍，里面有提到node爬蟲，解析爬取的內(nèi)容，書中提到利用cheerio模塊，遂果斷瀏覽其api文檔，cheerio其實(shí)就是jquery的翻版，這下可方便了，心中大喜。

實(shí)現(xiàn)思路

實(shí)現(xiàn)單個(gè)轉(zhuǎn)化

自定義解析

實(shí)現(xiàn)批量轉(zhuǎn)化

難點(diǎn)分析

自定義解析是比較頭疼的事情，必須要分析需要轉(zhuǎn)化的html的格式，需要讀取的內(nèi)容，本人對(duì)h1,h2,h3,div,img,a標(biāo)簽做了處理，可自行擴(kuò)展

html解析代碼如下

            if("p" === name){
                if(e_children.type === "text"){
                    if(e.children.length > 1){
                        for(var j=0,c_len=e.children.length;j
結(jié)語(yǔ)
完整代碼請(qǐng)移步至本人的html2md，如果此文章對(duì)您有用請(qǐng)不吝star

GPU云服務(wù)器云服務(wù)器 html2md 網(wǎng)絡(luò)環(huán)境之vps linux之網(wǎng)絡(luò)協(xié)議網(wǎng)絡(luò)安全之防火墻

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/97571.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Aldous

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

美妝專題研究報(bào)告（合集）

閱讀 1533·2021-11-23 09:51
EasyUi項(xiàng)目《網(wǎng)上書城》之權(quán)限登陸，注冊(cè)，左側(cè)樹形菜單

閱讀 3646·2021-09-26 09:46
當(dāng)過(guò)服務(wù)員、快遞員，現(xiàn)在年薪30W，歷盡山河叛逆少年終會(huì)成長(zhǎng)

閱讀 2135·2021-09-22 10:02
前端—初級(jí)階段2(5-8)

閱讀 1851·2019-08-30 15:56
css3 響應(yīng)式神器 calc()

閱讀 3333·2019-08-30 12:51
flex布局的溫故學(xué)習(xí)

閱讀 2235·2019-08-30 11:12
z-index與堆疊上下文

閱讀 2069·2019-08-29 13:23
vue 1.x 組件數(shù)據(jù)傳遞

閱讀 2331·2019-08-29 13:16

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

網(wǎng)絡(luò)爬蟲之html2md

相關(guān)文章

【爬蟲工具】下載博客轉(zhuǎn)成Markdown的形式

HTML -> Markdown

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

爬蟲 - 收藏集 - 掘金

發(fā)表評(píng)論

0條評(píng)論

Aldous

男|高級(jí)講師

TA的文章

美妝專題研究報(bào)告（合集）

EasyUi項(xiàng)目《網(wǎng)上書城》之權(quán)限登陸，注冊(cè)，左側(cè)樹形菜單

當(dāng)過(guò)服務(wù)員、快遞員，現(xiàn)在年薪30W，歷盡山河叛逆少年終會(huì)成長(zhǎng)

前端—初級(jí)階段2(5-8)

css3 響應(yīng)式神器 calc()

flex布局的溫故學(xué)習(xí)

z-index與堆疊上下文

vue 1.x 組件數(shù)據(jù)傳遞

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

網(wǎng)絡(luò)爬蟲之html2md

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！