摘要:的官方網(wǎng)址為,其使用手冊網(wǎng)址為本次分享將實(shí)現(xiàn)的功能為利用爬取某個(gè)搜索詞語暫僅限英文的百度百科的介紹部分,具體的功能介紹可以參考博客爬蟲自制簡單的搜索引擎。
??Jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。Jsoup的官方網(wǎng)址為: https://jsoup.org/, 其API使用手冊網(wǎng)址為:https://jsoup.org/apidocs/ove... .
??本次分享將實(shí)現(xiàn)的功能為:利用Jsoup爬取某個(gè)搜索詞語(暫僅限英文)的百度百科的介紹部分,具體的功能介紹可以參考博客:Python爬蟲——自制簡單的搜索引擎。在上篇爬蟲中我們用Python進(jìn)行爬取,這次,我們將用Java來做爬蟲,你沒看錯(cuò),就是Java.
??在Eclipse中加入Jsoup包,下載網(wǎng)址為:https://jsoup.org/download .
??爬蟲的具體代碼如下:
package baiduScrape; /* * 本爬蟲主要利用Java的Jsoup包進(jìn)行網(wǎng)絡(luò)爬取 * 本爬蟲的功能: 爬取百度百科的開頭介紹部分 * 使用方法: 輸入關(guān)鍵字(目前只支持英文)即可 */ import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.net.*; import java.io.*; import java.util.Scanner; public class BaiduScrape { public static void main(String[] args) { Scanner input = new Scanner(System.in); String baseUrl = "https://baike.baidu.com/item/"; String url = ""; // 如果輸入文字不是"exit",則爬取其百度百科的介紹部分,否則退出該程序 while(true) { System.out.println("Enter the word(Enter "exit" to exit):"); url = input.nextLine(); if(url.equals("exit")) { System.out.println("The program is over."); break; } String introduction = getContent(baseUrl+url); System.out.println(introduction+" "); } } // getContent()函數(shù)主要實(shí)現(xiàn)爬取輸入文字的百度百科的介紹部分 public static String getContent(String url){ // 利用URL解析網(wǎng)址 URL urlObj = null; try{ urlObj = new URL(url); } catch(MalformedURLException e){ System.out.println("The url was malformed!"); return ""; } // URL連接 URLConnection urlCon = null; try{ urlCon = urlObj.openConnection(); // 打開URL連接 // 將HTML內(nèi)容解析成UTF-8格式 Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url); // 刷選需要的網(wǎng)頁內(nèi)容 String contentText = doc.select("div.lemma-summary").first().text(); // 利用正則表達(dá)式去掉字符串中的"[數(shù)字]" contentText = contentText.replaceAll("[d+]", ""); return contentText; }catch(IOException e){ System.out.println("There was an error connecting to the URL"); return ""; } } }
在上述代碼中,url為輸入詞條(暫時(shí)僅限于英文),進(jìn)入while循環(huán)可一直搜索,當(dāng)輸入為’exit’時(shí)退出。contentText為該詞條的百度百科簡介的網(wǎng)頁形式,通過正則表達(dá)式將其中的文字提取出來。代碼雖然簡潔,但是功能還是蠻強(qiáng)大的,充分說明Java也是可以做爬蟲的。
??接下來是愉快的測試時(shí)間:
??本次分享到此結(jié)束,接下來也會(huì)持續(xù)更新Jsoup方面的相關(guān)知識(shí),歡迎大家交流~~
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/68907.html
摘要:一是一個(gè)開源解析器,可直接解析某個(gè)地址文本內(nèi)容。通過或選擇器來查找取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。無頭瀏覽器一個(gè)完整的瀏覽器內(nèi)核包括解析引擎渲染引擎請求處理等但是不包括顯示和用戶交互頁面的瀏覽器。 (一)Jsoup Jsoup是一個(gè)Java開源HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。通過Dom或Css選擇器來查找、取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。 maven坐標(biāo) or...
摘要:一是一個(gè)開源解析器,可直接解析某個(gè)地址文本內(nèi)容。通過或選擇器來查找取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。無頭瀏覽器一個(gè)完整的瀏覽器內(nèi)核包括解析引擎渲染引擎請求處理等但是不包括顯示和用戶交互頁面的瀏覽器。 (一)Jsoup Jsoup是一個(gè)Java開源HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。通過Dom或Css選擇器來查找、取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。 maven坐標(biāo) or...
摘要:介紹本篇博客將繼續(xù)上一篇博客爬蟲之使用的模塊爬取各國國旗的內(nèi)容,將用來實(shí)現(xiàn)這個(gè)爬蟲,下載全世界國家的國旗圖片。 介紹 ??本篇博客將繼續(xù)上一篇博客:Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗 的內(nèi)容,將用Java來實(shí)現(xiàn)這個(gè)爬蟲,下載全世界國家的國旗圖片。項(xiàng)目不再過多介紹,具體可以參考上一篇博客。??我們將全世界國家的名稱放在一個(gè)...
摘要:沒有結(jié)果返回百度搜索的可以指定頁碼,最多一頁個(gè),使用后有效減少了連接次數(shù)。但親測下來設(shè)置過以后的結(jié)果與實(shí)際用戶在百度搜索的結(jié)果排序和個(gè)數(shù)都有出入。 showImg(https://segmentfault.com/img/bVbnA0I?w=1280&h=787); 一直有一個(gè)需求,希望看到自己網(wǎng)站在百度的實(shí)時(shí)的排名用過一些工具,要么反應(yīng)遲鈍,要么結(jié)果不準(zhǔn)確或不實(shí)時(shí)于是打算用jsoup...
摘要:爬蟲工具的使用需要的包解決方案通過獲得對象,調(diào)用等方法獲得對象,調(diào)用等方法,獲得自己想要的內(nèi)容。也可以使用增強(qiáng)型循環(huán)將它遍歷。其中方法是獲得該元素的某某屬性值,比如標(biāo)簽的值。如果一次方法沒用選到具體的,可以多次使用該方法。 jsoup爬蟲工具的使用: *需要的jar包 --> Jsoup* 解決方案:1.通過url 獲得doucment對象,2.調(diào)用select()等方法獲得Ele...
閱讀 1807·2023-04-26 00:47
閱讀 1558·2021-11-11 16:55
閱讀 2633·2021-09-27 14:04
閱讀 3562·2021-09-22 15:58
閱讀 3564·2021-07-26 23:38
閱讀 2142·2019-08-30 13:47
閱讀 1994·2019-08-30 13:15
閱讀 1159·2019-08-29 17:09