Java爬蟲(chóng)之爬取中國(guó)高校排名前100名并存入MongoDB中

GeekQiaQia 發(fā)布于2019-08-15 15:10 / 2262人閱讀

摘要：介紹在博客爬蟲(chóng)爬取中國(guó)高校排名前名并寫入中，我們利用來(lái)寫爬蟲(chóng)，將中的大學(xué)排名表格爬取出來(lái)，并存入到中。本次分享將用的來(lái)實(shí)現(xiàn)相同的功能，并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫(kù)中。

介紹

??在博客：Python爬蟲(chóng)——爬取中國(guó)高校排名前100名并寫入MySQL中，我們利用Python來(lái)寫爬蟲(chóng)，將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來(lái)，并存入到MySQL中。
??本次分享將用Java的Jsoup API來(lái)實(shí)現(xiàn)相同的功能，并將爬取到的數(shù)據(jù)存入到MongoDB數(shù)據(jù)庫(kù)中。

準(zhǔn)備

??我們將在Eclipse中寫程序，因此，需要下載以下jar包：

bson-3.6.3.jar

jsoup-1.10.3.jar

mongodb-driver-3.6.3.jar

mongodb-driver-core-3.6.3.jar

新建webScraper項(xiàng)目和jsoupScraper包，并將以上jar包加入到項(xiàng)目路徑中，如下圖：

程序

??在jsoupScraper包下新建JsoupScaper.java文件，其完整代碼如下：

package jsoupScraper;

/* 本爬蟲(chóng)利用Jsoup爬取中國(guó)大學(xué)排血排行榜前100名
 * 并將爬取后的結(jié)果存入到MongoDB數(shù)據(jù)庫(kù)中
 */

import java.util.List;
import java.util.ArrayList;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import java.net.*;
import java.io.*;

import com.mongodb.MongoClient;
import com.mongodb.client.MongoCollection;
import com.mongodb.client.MongoDatabase;

public class JsoupScraper {

    public static void main(String[] args) {
        String url = "http://gaokao.xdf.cn/201702/10612921.html";
        insertIntoMongoDB(url);   
    }

    // insertIntoMongoDB()函數(shù)：將爬取的表格數(shù)據(jù)插入到MongoDB中
    public static void insertIntoMongoDB(String url) {
        try{   
            // 連接到本地的 mongodb 服務(wù)
            MongoClient mongoClient = new MongoClient("localhost", 27017);
          
            // 連接到university數(shù)據(jù)庫(kù)，不過(guò)該數(shù)據(jù)庫(kù)不存在，則創(chuàng)建university數(shù)據(jù)庫(kù)
            MongoDatabase mongoDatabase = mongoClient.getDatabase("university"); 
            System.out.println("Connect to database successfully");

            // 創(chuàng)建集合，該集合事先不存在
            mongoDatabase.createCollection("rank");
            System.out.println("集合創(chuàng)建成功");

            // 將爬取的表格數(shù)據(jù)作為文檔分條插入到新建的集合中
            MongoCollection collection = mongoDatabase.getCollection("rank");
            System.out.println("集合 test 選擇成功");
            
            List content = getContent(url);
            
            for(int i=2; i documents = new ArrayList();
                documents.add(document);
                collection.insertMany(documents);
                System.out.println("第"+i+"條文檔插入成功");
                
            }
            
            // 關(guān)閉mongodb連接
            mongoClient.close();
            System.out.println("MongoDB連接已關(guān)閉");
         }
         catch(Exception e){
             e.printStackTrace();
         }
      }
    
    // getContent()函數(shù),返回爬取的表格數(shù)據(jù)
    public static List getContent(String url){
        List content = new ArrayList();
        
        // 利用URL解析網(wǎng)址
        URL urlObj = null;
        try{
            urlObj = new URL(url);

        }
        catch(MalformedURLException e){
            System.out.println("The url was malformed!");
            return content;
        }

        // URL連接
        URLConnection urlCon = null;
        try{
            // 打開(kāi)URL連接
            urlCon = urlObj.openConnection(); 
            // 將HTML內(nèi)容解析成UTF-8格式
            Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);
            // 刷選需要的網(wǎng)頁(yè)內(nèi)容
            Elements elems = doc.getElementsByTag("tbody").first().children();
            // 提取每個(gè)字段的文字部分
            content = elems.eachText();
            
            return content;
        }
        catch(IOException e){
            System.out.println("There was an error connecting to the URL");
            return content;
        }

    }
}

運(yùn)行

??運(yùn)行上述程序，結(jié)果如下：

??前往MongoDB數(shù)據(jù)庫(kù)中查看，如下圖：

結(jié)束語(yǔ)

??該爬蟲(chóng)其實(shí)并不復(fù)雜，實(shí)現(xiàn)的原理也很簡(jiǎn)單，我們已經(jīng)用能Java和Python來(lái)實(shí)現(xiàn)了。希望以后能寫一些關(guān)于Java爬蟲(chóng)的文章，歡迎大家交流~~