Java爬蟲之爬取中國高校排名前100名并存入MongoDB中

jzzlee 發(fā)布于2019-06-26 17:38 / 1121人閱讀

摘要：介紹在博客爬蟲爬取中國高校排名前名并寫入中，我們利用來寫爬蟲，將中的大學(xué)排名表格爬取出來，并存入到中。本次分享將用的來實現(xiàn)相同的功能，并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫中。

介紹

??在博客：Python爬蟲——爬取中國高校排名前100名并寫入MySQL中，我們利用Python來寫爬蟲，將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來，并存入到MySQL中。
??本次分享將用Java的Jsoup API來實現(xiàn)相同的功能，并將爬取到的數(shù)據(jù)存入到MongoDB數(shù)據(jù)庫中。

準(zhǔn)備

??我們將在Eclipse中寫程序，因此，需要下載以下jar包：

bson-3.6.3.jar

jsoup-1.10.3.jar

mongodb-driver-3.6.3.jar

mongodb-driver-core-3.6.3.jar

新建webScraper項目和jsoupScraper包，并將以上jar包加入到項目路徑中，如下圖：

程序

??在jsoupScraper包下新建JsoupScaper.java文件，其完整代碼如下：

package jsoupScraper;

/* 本爬蟲利用Jsoup爬取中國大學(xué)排血排行榜前100名
 * 并將爬取后的結(jié)果存入到MongoDB數(shù)據(jù)庫中
 */

import java.util.List;
import java.util.ArrayList;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import java.net.*;
import java.io.*;

import com.mongodb.MongoClient;
import com.mongodb.client.MongoCollection;
import com.mongodb.client.MongoDatabase;

public class JsoupScraper {

    public static void main(String[] args) {
        String url = "http://gaokao.xdf.cn/201702/10612921.html";
        insertIntoMongoDB(url);   
    }

    // insertIntoMongoDB()函數(shù)：將爬取的表格數(shù)據(jù)插入到MongoDB中
    public static void insertIntoMongoDB(String url) {
        try{   
            // 連接到本地的 mongodb 服務(wù)
            MongoClient mongoClient = new MongoClient("localhost", 27017);
          
            // 連接到university數(shù)據(jù)庫，不過該數(shù)據(jù)庫不存在，則創(chuàng)建university數(shù)據(jù)庫
            MongoDatabase mongoDatabase = mongoClient.getDatabase("university"); 
            System.out.println("Connect to database successfully");

            // 創(chuàng)建集合，該集合事先不存在
            mongoDatabase.createCollection("rank");
            System.out.println("集合創(chuàng)建成功");

            // 將爬取的表格數(shù)據(jù)作為文檔分條插入到新建的集合中
            MongoCollection collection = mongoDatabase.getCollection("rank");
            System.out.println("集合 test 選擇成功");
            
            List content = getContent(url);
            
            for(int i=2; i documents = new ArrayList();
                documents.add(document);
                collection.insertMany(documents);
                System.out.println("第"+i+"條文檔插入成功");
                
            }
            
            // 關(guān)閉mongodb連接
            mongoClient.close();
            System.out.println("MongoDB連接已關(guān)閉");
         }
         catch(Exception e){
             e.printStackTrace();
         }
      }
    
    // getContent()函數(shù),返回爬取的表格數(shù)據(jù)
    public static List getContent(String url){
        List content = new ArrayList();
        
        // 利用URL解析網(wǎng)址
        URL urlObj = null;
        try{
            urlObj = new URL(url);

        }
        catch(MalformedURLException e){
            System.out.println("The url was malformed!");
            return content;
        }

        // URL連接
        URLConnection urlCon = null;
        try{
            // 打開URL連接
            urlCon = urlObj.openConnection(); 
            // 將HTML內(nèi)容解析成UTF-8格式
            Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);
            // 刷選需要的網(wǎng)頁內(nèi)容
            Elements elems = doc.getElementsByTag("tbody").first().children();
            // 提取每個字段的文字部分
            content = elems.eachText();
            
            return content;
        }
        catch(IOException e){
            System.out.println("There was an error connecting to the URL");
            return content;
        }

    }
}

運行

??運行上述程序，結(jié)果如下：

??前往MongoDB數(shù)據(jù)庫中查看，如下圖：

結(jié)束語

??該爬蟲其實并不復(fù)雜，實現(xiàn)的原理也很簡單，我們已經(jīng)用能Java和Python來實現(xiàn)了。希望以后能寫一些關(guān)于Java爬蟲的文章，歡迎大家交流~~

云服務(wù)器 GPU云服務(wù)器 java爬蟲爬取數(shù)據(jù) 中國分布式存儲排名前十名中國服務(wù)器排名前十名 idc java中100

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/19243.html

發(fā)表評論

登陸后可評論

0條評論

jzzlee

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow下載

閱讀 2764·2023-04-25 14:21
#yyds干貨盤點# 軟件編碼規(guī)范的評測內(nèi)容

閱讀 1201·2021-11-23 09:51
如何隱藏主機名-怎樣隱藏本機的主機名和IP地址？

閱讀 4083·2021-09-22 15:43
理解 line-height 和 vertical-align

閱讀 630·2019-08-30 15:55
微信小程序開發(fā)必備必看常用的Flex布局模式－wxflex

閱讀 1588·2019-08-29 11:28
JavaScript設(shè)計模式系列六：橋接模式

閱讀 2467·2019-08-26 11:44
原生JS快速實現(xiàn)拖放（drag and drop）效果

閱讀 1702·2019-08-23 18:15
大話javascript 5期：跨域

閱讀 2898·2019-08-23 16:42

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Java爬蟲之爬取中國高校排名前100名并存入MongoDB中

相關(guān)文章