Java爬蟲之多線程下載IMDB中Top250電影的圖片

wujl596 發(fā)布于2019-08-15 15:12 / 2361人閱讀

摘要：本次分享將在此基礎(chǔ)上，利用多線程，提高程序運(yùn)行的效率。思路本次分享建立在博客爬蟲之下載中電影的圖片上，總體的爬蟲思路沒有變化，只是在此基礎(chǔ)上引入多線程。

介紹

??在博客：Java爬蟲之下載IMDB中Top250電影的圖片中我們實(shí)現(xiàn)了利用Java爬蟲來下載圖片，但是效率不算太高。本次分享將在此基礎(chǔ)上，利用多線程，提高程序運(yùn)行的效率。

思路

??本次分享建立在博客Java爬蟲之下載IMDB中Top250電影的圖片上，總體的爬蟲思路沒有變化，只是在此基礎(chǔ)上引入多線程。多線程的思路如下：

Java的每個(gè)任務(wù)類必須實(shí)現(xiàn)Runnable接口，因此，我們將新建ImageDownload類來實(shí)現(xiàn)Runnable接口。ImageDownload類的構(gòu)造函數(shù)的參數(shù)有: url:網(wǎng)站的網(wǎng)址， dir: 圖片儲(chǔ)存目錄。并在run()方法中實(shí)現(xiàn)將網(wǎng)頁中的圖片下載到本地。

在主函數(shù)中，調(diào)用ImageDownload類，利用多線程實(shí)現(xiàn)爬蟲下載，提高運(yùn)行效率。

程序

??ImageDownload類的代碼完整如下：

package wikiScrape;

import java.io.File;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

/* ImageDownload類實(shí)現(xiàn)Runnable接口
 * ImageDownload類的構(gòu)造參數(shù)： url:網(wǎng)址的網(wǎng)址, dir: 圖片存儲(chǔ)目錄
 * ImageDownload類實(shí)現(xiàn)了將網(wǎng)頁中的圖片下載到本地
 */

public class ImageDownload implements Runnable{
    private String url;
    private String dir;
    
    public ImageDownload(String url, String dir) {
        this.url = url;
        this.dir = dir;
    }
    
    // run()函數(shù): 將網(wǎng)頁中的電影圖片下載到本地
    @Override
    public void run(){
        
        // 利用URL解析網(wǎng)址
        URL urlObj = null;
        try{
            urlObj = new URL(url);

        }
        catch(MalformedURLException e){
            System.out.println("The url was malformed!");
        }

        // URL連接
        URLConnection urlCon = null;
        try{
            // 打開URL連接
            urlCon = urlObj.openConnection(); 
            // 將HTML內(nèi)容解析成UTF-8格式
            Document doc = Jsoup.parse(urlCon.getInputStream(), "utf-8", url);
            // 提取電影圖片所在的HTML代碼塊
            Elements elems = doc.getElementsByClass("ss-3 clear");
            Elements pic_block = elems.first().getElementsByTag("a");
            
            for(int i=0; i
??主函數(shù)ImageScraper.java的代碼如下：
package wikiScrape;

/* 本爬蟲利用多線程爬取http://www.imdb.cn/IMDB250/中Top250的圖片
 * 先利用Jsoup解析得到該網(wǎng)頁中的圖片的url
 * 然后利用FileUtils.copyURLToFile()函數(shù)將圖片下載到本地
 */

import wikiScrape.ImageDownload;

import java.util.ArrayList;
import java.util.concurrent.*;
import java.util.Date;

public class ImageScraper {

    public static void main(String[] args) {
        Date d1 = new Date();
        
        System.out.println("爬蟲開始......");
        
        // 爬取的網(wǎng)址列表，一共十個(gè)網(wǎng)頁
        ArrayList urls = new ArrayList();
        urls.add("http://www.imdb.cn/IMDB250/");
        for(int i=2; i<=10; i++) {
            urls.add("http://www.imdb.cn/imdb250/"+ Integer.toString(i));
        }
        
        String dir = "E://log/";  // 圖片儲(chǔ)存目錄
        
        // 利用多線程下載每個(gè)頁面中的圖片
        ExecutorService executor = Executors.newCachedThreadPool();
        
        // Create and launch 100 threads
        for(int i=0; i<10; i++) {
            executor.execute(new ImageDownload(urls.get(i), dir));
        }
        
        executor.shutdown();
        
        // wait until all tasks are finished
        while(!executor.isTerminated()) {
        }
        
        System.out.println("程序運(yùn)行完畢！");
        Date d2 = new Date();
        
        // 計(jì)算程序的運(yùn)行時(shí)間，并輸出
        long seconds = (d2.getTime()-d1.getTime())/1000;
        System.out.println("一共用時(shí)： "+seconds+"秒.");
        
    }
    
}

運(yùn)行
??運(yùn)行上述主函數(shù)，結(jié)果如下：

??一共也是下載了244張圖片，運(yùn)行結(jié)果與博客：Java爬蟲之下載IMDB中Top250電影的圖片中的結(jié)果一模一樣，但是時(shí)間卻少了一半！可見利用多線程來寫爬蟲效率相當(dāng)高！
??本次分享到此結(jié)束，歡迎大家交流~~

云服務(wù)器 GPU云服務(wù)器豆瓣top250的數(shù)據(jù)分析 top250 java中線程的四種狀態(tài) java中圖片的傳輸

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/68921.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

wujl596

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow+resnet

閱讀 1141·2023-04-26 02:46
tensorflow數(shù)據(jù)集

閱讀 637·2023-04-25 19:38
調(diào)查表明80%的企業(yè)在云計(jì)算方面超支_云資訊

閱讀 654·2021-10-14 09:42
Python學(xué)習(xí)總結(jié)

閱讀 1252·2021-09-08 09:36
css/day08

閱讀 1368·2019-08-30 15:44
奔跑

閱讀 1334·2019-08-29 17:23
CSS 水平垂直居中

閱讀 2252·2019-08-29 15:27
Flex布局做出自適應(yīng)頁面--語法和案例

閱讀 818·2019-08-29 14:15

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Java爬蟲之多線程下載IMDB中Top250電影的圖片

相關(guān)文章

Java爬蟲之下載IMDB中Top250電影的圖片

**Python爬蟲之多線程下載豆瓣Top250電影圖片**

Python 從零開始爬蟲(三)——實(shí)戰(zhàn)：requests+BeautifulSoup實(shí)現(xiàn)靜態(tài)爬取

**scrapy爬取豆瓣Top250電影**

Python爬蟲 - scrapy - 爬取豆瓣電影TOP250

發(fā)表評(píng)論

0條評(píng)論

wujl596

男|高級(jí)講師

TA的文章

tensorflow+resnet

tensorflow數(shù)據(jù)集

調(diào)查表明80%的企業(yè)在云計(jì)算方面超支_云資訊

Python學(xué)習(xí)總結(jié)

css/day08

奔跑

CSS 水平垂直居中

Flex布局做出自適應(yīng)頁面--語法和案例

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Java爬蟲之多線程下載IMDB中Top250電影的圖片

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！