成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Web Spider -- 做一個簡單的爬蟲 (愿給您啟示)

bingo / 2448人閱讀

摘要:一個簡單的爬蟲代碼已托管這里有一個簡單的例子根據(jù)提供的種子爬取數(shù)據(jù)指定對應(yīng)的抓取規(guī)則自己定義抓取的鏈接簡單的控制臺打印結(jié)果建筑工地上的青年如何自我成長知乎國內(nèi)專做進口行業(yè)的公司多不不包括貨代公司知乎如何有效地進行后天

Web Spider
一個簡單的爬蟲

代碼已托管

這里有一個簡單的例子

public class SpiderZhiHuDemo {


    private Logger logger = LoggerFactory.getLogger(SpiderZhiHuDemo.class);


    /**
     * 根據(jù)提供的種子爬取數(shù)據(jù)
     */
    public void initSeedDemo() {
        String seed = "https://www.zhihu.com/question/28629300";
        new Spider() {
            {
                downloader = new ProxyDownloader(new JSoupDownloader());
                extractPattern = "https://www.zhihu.com/question/.*"; // 指定對應(yīng)的抓取規(guī)則
            }
        }.init(seed).start();
    }

    /**
     * 自己定義 抓取的url鏈接 (簡單的)
     */
    public void easyStreamDemo(){
        String url = "https://www.zhihu.com/question/";
        new Spider() {
            {
                downloader = new ProxyDownloader(new JSoupDownloader());
                pipeline = (title, page) -> {
                    logger.info("url: {} , title : {} ", page.getRequest(), title);
                };
            }
        }.init(Stream.iterate(28629300, i -> i + 1).limit(60).map(i -> url + i).parallel()).start();
    }
} 

控制臺打印結(jié)果

18:35:54.278 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629326 , title : 建筑工地上的青年如何自我成長? - 知乎 
18:35:54.525 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629319 , title : 國內(nèi)專做進口行業(yè)的公司多不?(不包括貨代公司) - 知乎 
18:35:54.553 [main] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629338 , title : 如何有效地進行后天性豐胸? - 知乎 
18:35:54.881 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629328 , title : Android開發(fā)中l(wèi)ist和適配器是怎樣關(guān)聯(lián)的?適配器具體作用是什么?list可以做什么? - 知乎 
18:35:55.168 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629321 , title : 互聯(lián)網(wǎng)公司,粉絲運營如何做? - 知乎 
18:35:55.317 [ForkJoinPool.commonPool-worker-2] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629311 , title : 為什么一些大公司的特喜歡裝X? - 知乎 
18:35:55.506 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629315 , title : 大二中 剛開學(xué) 一閑下來卻總想給家里打電話 無法控制 這是為什么? - 知乎 
18:35:55.664 [main] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629342 , title : 中國雷達哪家強? - 知乎 
18:35:56.113 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629325 , title : 美麗加芬蝸牛系列怎么樣? - 知乎 
18:35:56.472 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629300 , title : "截石位"的說法是從哪里來的或者怎么翻譯來的? - 知乎 
18:35:56.713 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629304 , title : 我想考南京大學(xué)的歷史系中國史的其中一組 就是01~09方向 請問 是按組命題的么? - 知乎 
18:35:56.803 [ForkJoinPool.commonPool-worker-2] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629353 , title : K線的精髓在哪里? - 知乎 
18:35:57.022 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629301 , title : 華為加班到底有多恐怖? - 知乎 
18:35:57.143 [main] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629335 , title : 人體的哪些疾?。òY狀)可以自行診斷? - 知乎 
18:35:57.167 [ForkJoinPool.commonPool-worker-2] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629354 , title : 既然ISIS這么罪大惡極,那么聯(lián)合國為什么還不派兵剿滅? - 知乎 
18:35:57.333 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629302 , title : 誰能幫我起個專門針對聲樂培訓(xùn),演出,小明星,小歌手教學(xué)工作室名字?能讓人很快記住大氣的名字?謝謝??? - 知乎 
18:35:58.014 [ForkJoinPool.commonPool-worker-2] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629357 , title : 大學(xué)畢業(yè)后留有一大堆書不舍得丟掉,每到搬家時就會發(fā)愁了,請問如何處理不會覺得可惜而且便捷? - 知乎 
18:35:58.022 [ForkJoinPool.commonPool-worker-3] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629349 , title : 華為研發(fā)員工的發(fā)展,待遇,福利?和互聯(lián)網(wǎng)公司比呢? - 知乎 
18:35:58.209 [ForkJoinPool.commonPool-worker-1] INFO  c.s.s.sample.zhihu.SpiderZhiHuDemo - url: https://www.zhihu.com/question/28629332 , title : 朋友圈瘋傳: 求擴散!一個小孩的生命結(jié)束了就是因為她把手機充電接口放到嘴里,而另一頭還在插線板上。 求解? - 知乎 

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/71216.html

相關(guān)文章

  • 爬蟲入門

    摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴充到整個。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),...

    defcon 評論0 收藏0
  • 爬蟲入門

    摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴充到整個。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù),...

    Invoker 評論0 收藏0
  • Python爬蟲 - scrapy - 爬取豆瓣電影TOP250

    摘要:前言新接觸爬蟲,經(jīng)過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。 0.前言 新接觸爬蟲,經(jīng)過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網(wǎng)上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。所以找了很多實例和文...

    WalkerXu 評論0 收藏0
  • Python爬蟲建站入門手記——從零開始建立采集站點(三:采集入庫)

    摘要:進入正題第三部分,采集入庫。內(nèi)容如下加上這個可以記住問題在的位置,方便以后更新或者其他操作都很直白,關(guān)于各個可以看看的文檔。代碼如下添加方法采集當(dāng)前分頁正在抓取分頁這個地方寫得很笨,之前該在加上這個屬性。 上回,我已經(jīng)大概把爬蟲寫出來了。 我寫了一個內(nèi)容爬蟲,一個爬取tag里面內(nèi)容鏈接的爬蟲 其實還差一個,就是收集一共有哪些tag的爬蟲。但是這里先不說這個問題,因為我上次忘了 這次又不...

    amuqiao 評論0 收藏0
  • scrapy 進階使用

    摘要:下載器負(fù)責(zé)獲取頁面,然后將它們交給引擎來處理。內(nèi)置了一些下載器中間件,這些中間件將在后面介紹。下載器中間件下載器中間件可以在引擎和爬蟲之間操縱請求和響應(yīng)對象。爬蟲中間件與下載器中間件類似,啟用爬蟲中間件需要一個字典來配置。 前段時間我寫了一篇《scrapy快速入門》,簡單介紹了一點scrapy的知識。最近我的搬瓦工讓墻了,而且我又學(xué)了一點mongodb的知識,所以這次就來介紹一些scr...

    The question 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<