摘要:前言上周利用爬取的網(wǎng)絡(luò)文章,一直未能利用實(shí)現(xiàn)轉(zhuǎn)化,整整一周時(shí)間才得以解決。實(shí)現(xiàn)為何突然會(huì)選擇來(lái)實(shí)現(xiàn),剛好最近在看書籍,里面有提到爬蟲,解析爬取的內(nèi)容,書中提到利用模塊,遂果斷瀏覽其文檔,其實(shí)就是的翻版,這下可方便了,心中大喜。
前言
上周利用java爬取的網(wǎng)絡(luò)文章,一直未能利用java實(shí)現(xiàn)html轉(zhuǎn)化md,整整一周時(shí)間才得以解決。
雖然本人的博客文章數(shù)量不多,但是絕不齒于手動(dòng)轉(zhuǎn)換,畢竟手動(dòng)轉(zhuǎn)換浪費(fèi)時(shí)間,把那些時(shí)間用來(lái)做些別的也是好的。
設(shè)計(jì)思路 Java實(shí)現(xiàn)一開始的思路是想著用java來(lái)解析html,想著各種標(biāo)簽解析、符號(hào)解析、正則替換等等,決定在github上搜索一波,果然是有前輩實(shí)現(xiàn)過(guò),頓時(shí)欣喜若狂;
代碼地址
下載后如下圖
可利用htmlToHexoMd方法測(cè)試運(yùn)行
可能作者是在linux服務(wù)器上定義的路徑,我測(cè)試的時(shí)候一直提示路徑問(wèn)題,結(jié)果被迫更改轉(zhuǎn)化的路徑代碼,
調(diào)試運(yùn)行后生成的md文件,本地啟動(dòng)hexo服務(wù),上傳剛剛生成md文件,網(wǎng)頁(yè)瀏覽,不滿,棄之。
NodeJS實(shí)現(xiàn)為何突然會(huì)選擇NodeJS來(lái)實(shí)現(xiàn),剛好最近在看node書籍,里面有提到node爬蟲,解析爬取的內(nèi)容,書中提到利用cheerio模塊,遂果斷瀏覽其api文檔,cheerio其實(shí)就是jquery的翻版,這下可方便了,心中大喜。
實(shí)現(xiàn)思路實(shí)現(xiàn)單個(gè)轉(zhuǎn)化
自定義解析
實(shí)現(xiàn)批量轉(zhuǎn)化
難點(diǎn)分析自定義解析是比較頭疼的事情,必須要分析需要轉(zhuǎn)化的html的格式,需要讀取的內(nèi)容,本人對(duì)h1,h2,h3,div,img,a標(biāo)簽做了處理,可自行擴(kuò)展
html解析代碼如下
if("p" === name){ if(e_children.type === "text"){ if(e.children.length > 1){ for(var j=0,c_len=e.children.length;j結(jié)語(yǔ) 完整代碼請(qǐng)移步至本人的html2md,如果此文章對(duì)您有用請(qǐng)不吝star
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/97571.html
摘要:簡(jiǎn)單的爬蟲工具下載博客,并轉(zhuǎn)成的形式為什么要寫這個(gè)工具主要是為了收集好的網(wǎng)上資源,每次看到一篇好的文章就像保存下來(lái),但是保存網(wǎng)頁(yè)的可讀性太差了,如果轉(zhuǎn)換成的形式就很舒服。 簡(jiǎn)單的爬蟲工具 下載博客,并轉(zhuǎn)成Markdown的形式 為什么要寫這個(gè)工具 主要是為了收集好的網(wǎng)上資源,每次看到一篇好的文章就像保存下來(lái),但是保存網(wǎng)頁(yè)的可讀性太差了,如果轉(zhuǎn)換成Markdown的形式就很舒服。但是網(wǎng)頁(yè)...
摘要:只支持協(xié)議,選項(xiàng)表示文檔中的選擇器,如選擇器。對(duì)于單個(gè),判斷其進(jìn)行映射。同時(shí)還需要注意對(duì)于代碼塊其換行是被樣式控制的,如下圖而且中的屬性不屬于標(biāo)準(zhǔn),是瀏覽器各自實(shí)現(xiàn)的。 情景重現(xiàn) 有時(shí)候,我們看到網(wǎng)上比較好的文章,我們油然會(huì)想去轉(zhuǎn)載,但是呈現(xiàn)在瀏覽器上文章的格式為 HTML,我們書寫文章的格式又為 Markdown,所以我便想實(shí)現(xiàn) HTML 到 Markdown 的轉(zhuǎn)換。 注:對(duì)于一些...
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來(lái)源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來(lái)源于某博主:htt...
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:在這之前,還是有必要對(duì)一些概念超輕量級(jí)反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標(biāo)配系統(tǒng)。 爬蟲修煉之道——從網(wǎng)頁(yè)中提取結(jié)構(gòu)化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關(guān)注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個(gè)爬取多頁(yè)面的網(wǎng)絡(luò)爬蟲主要講解了如何使用python編寫一個(gè)可以下載多頁(yè)面的爬蟲,如何將相對(duì)URL轉(zhuǎn)為絕對(duì)URL,如何限速,...
閱讀 1533·2021-11-23 09:51
閱讀 3646·2021-09-26 09:46
閱讀 2135·2021-09-22 10:02
閱讀 1851·2019-08-30 15:56
閱讀 3333·2019-08-30 12:51
閱讀 2235·2019-08-30 11:12
閱讀 2069·2019-08-29 13:23
閱讀 2331·2019-08-29 13:16