成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

ReactPHP 爬蟲實戰(zhàn):下載整個網(wǎng)站的圖片

GitChat / 2502人閱讀

摘要:下一步是審查收到的代碼,然后從里面提取圖片。我們再次創(chuàng)建一個實例,然后發(fā)起一個請求存儲圖片到磁盤上到達的響應攜帶了請求的圖片內(nèi)容。此外,我們還需要提供一個目錄存放下載的圖片這是更新后的構(gòu)造函數(shù)好的,現(xiàn)在我們準備保存文件到磁盤上。

什么是網(wǎng)頁抓取?

你是否曾經(jīng)需要從一個沒有提供 API 的站點獲取信息? 我們可以通過網(wǎng)頁抓取,然后從目標網(wǎng)站的 HTML 中獲得我們想要的信息,進而解決這個問題。 當然,我們也可以手動提取這些信息, 但手動操作很乏味。 所以, 通過爬蟲來自動化來完成這個過程會更有效率。

在這個教程中我們會從?Pexels?抓取一些貓的圖片。這個網(wǎng)站提供高質(zhì)量且免費的素材圖片。他們提供了API, 但這些 API 有 200次/小時 的請求頻率限制。

[](https://user-gold-cdn.xitu.io...

發(fā)起并發(fā)請求

在網(wǎng)頁抓取中使用異步 PHP (相比使用同步方式)的最大好處是可以在更短的時間內(nèi)完成更多的工作。使用異步 PHP 使得我們可以立刻請求盡可能多的網(wǎng)頁而不是每次只能請求單個網(wǎng)頁并等待結(jié)果返回。 因此,一旦請求結(jié)果返回我們就可以開始處理。

首先,我們從 GitHub 上拉取一個叫做?buzz-react? 的異步 HTTP 客戶端的代碼 -- 它是一個基于 ReactPHP 的簡單、致力于并發(fā)處理大量 HTTP 請求的異步 HTTP 客戶端:

composer require clue/buzz-react

現(xiàn)在, 我們就可以請求?pexels 上的圖片頁面?了:

get("https://www.pexels.com/photo/kitten-cat-rush-lucky-cat-45170/")
    ->then(function(PsrHttpMessageResponseInterface $response) {
        echo $response->getBody();
    });

$loop->run();

我們創(chuàng)建了?ClueReactBuzzBrowser?的實例, 把它作為 HTTP client 使用。上面的代碼發(fā)起了一個異步的?GET?請求來獲取網(wǎng)頁內(nèi)容(包含一張小貓們的圖片)。?$client->get($url)?方法返回了一個包含?PSR-7 response 的?promise?對象。

客戶端是異步工作的,這意味著我們可以很容易地請求幾個頁面,然后這些請求會被同步執(zhí)行:

get("https://www.pexels.com/photo/kitten-cat-rush-lucky-cat-45170/")
    ->then(function(PsrHttpMessageResponseInterface $response) {
        echo $response->getBody();
    });

$client->get("https://www.pexels.com/photo/adorable-animal-baby-blur-177809/")
    ->then(function(PsrHttpMessageResponseInterface $response) {
        echo $response->getBody();
    });

$loop->run();

這里的代碼含義如下:

發(fā)起一個請求

獲取響應

添加響應的處理程序

當響應解析完畢就處理響應

所以,這個邏輯可以提取到一個類里,這樣我們可以很容易地請求多個 URL 并添加相同的響應處理程序。讓我們基于Browser創(chuàng)建一個包裝器。

用下面的代碼創(chuàng)建一個名為Scraper的類:

client = $client;
    }

    public function scrape(array $urls)
    {
        foreach ($urls as $url) {
            $this->client->get($url)->then(
                function (ResponseInterface $response) {
                    $this->processResponse((string) $response->getBody());
                });
        }
    }

    private function processResponse(string $html)
    {
        // ...
    }
}

我們把Browser作為依賴項注入到構(gòu)造函數(shù)并提供一個公共方法scrape(array $urls)。接著對每個指定的 URL 發(fā)起一個GET請求。當響應完成時,我們調(diào)用一個私有方法processResponse(string $html)。這個方法負責遍歷 HTML 代碼并下載圖片。下一步是審查收到的 HTML 代碼,然后從里面提取圖片。

發(fā)起并發(fā)請求

在網(wǎng)頁抓取中使用異步 PHP (相比使用同步方式)的最大好處是可以在更短的時間內(nèi)完成更多的工作。使用異步 PHP 使得我們可以立刻請求盡可能多的網(wǎng)頁而不是每次只能請求單個網(wǎng)頁并等待結(jié)果返回。 因此,一旦請求結(jié)果返回我們就可以開始處理。

首先,我們從 GitHub 上拉取一個叫做?buzz-react? 的異步 HTTP 客戶端的代碼 -- 它是一個基于 ReactPHP 的簡單、致力于并發(fā)處理大量 HTTP 請求的異步 HTTP 客戶端:

composer require clue/buzz-react

現(xiàn)在, 我們就可以請求?pexels 上的圖片頁面?了:

get("https://www.pexels.com/photo/kitten-cat-rush-lucky-cat-45170/")
    ->then(function(PsrHttpMessageResponseInterface $response) {
        echo $response->getBody();
    });

$loop->run();

我們創(chuàng)建了?ClueReactBuzzBrowser?的實例, 把它作為 HTTP client 使用。上面的代碼發(fā)起了一個異步的?GET?請求來獲取網(wǎng)頁內(nèi)容(包含一張小貓們的圖片)。?$client->get($url)?方法返回了一個包含?PSR-7 response 的?promise?對象。

客戶端是異步工作的,這意味著我們可以很容易地請求幾個頁面,然后這些請求會被同步執(zhí)行:

get("https://www.pexels.com/photo/kitten-cat-rush-lucky-cat-45170/")
    ->then(function(PsrHttpMessageResponseInterface $response) {
        echo $response->getBody();
    });

$client->get("https://www.pexels.com/photo/adorable-animal-baby-blur-177809/")
    ->then(function(PsrHttpMessageResponseInterface $response) {
        echo $response->getBody();
    });

$loop->run();

這里的代碼含義如下:

發(fā)起一個請求

獲取響應

添加響應的處理程序

當響應解析完畢就處理響應

所以,這個邏輯可以提取到一個類里,這樣我們可以很容易地請求多個 URL 并添加相同的響應處理程序。讓我們基于Browser創(chuàng)建一個包裝器。

用下面的代碼創(chuàng)建一個名為Scraper的類:

client = $client;
    }

    public function scrape(array $urls)
    {
        foreach ($urls as $url) {
            $this->client->get($url)->then(
                function (ResponseInterface $response) {
                    $this->processResponse((string) $response->getBody());
                });
        }
    }

    private function processResponse(string $html)
    {
        // ...
    }
}

我們把Browser作為依賴項注入到構(gòu)造函數(shù)并提供一個公共方法scrape(array $urls)。接著對每個指定的 URL 發(fā)起一個GET請求。當響應完成時,我們調(diào)用一個私有方法processResponse(string $html)。這個方法負責遍歷 HTML 代碼并下載圖片。下一步是審查收到的 HTML 代碼,然后從里面提取圖片。

爬取網(wǎng)站

此刻我們只是獲取到了響應頁面的 HTML 代碼?,F(xiàn)在需要提取圖片 URL。為此,我們需要審查收到的 HTML 代碼結(jié)構(gòu)。前往?Pexels 的圖片頁,右擊圖片并選擇審查元素,你會看到一些東西,就像這樣:

[](https://user-gold-cdn.xitu.io...

我們可以看到img標簽有個image-section__image類名。我們要使用這個信息從收到的 HTML 中提取這個標簽。圖片的 URL 存儲在src屬性里:

[](https://user-gold-cdn.xitu.io...

為提取 HTML 標簽,我們需要使用 ?Symfony 的 DomCrawler 組件。拉取需要的包:

composer require symfony/dom-crawler
composer require symfony/css-selector

DomCrawler 的適配組件 CSS-selector??允許我們使用類 - jQuery 的選擇器遍歷 DOM。當安裝好一切之后,打開我們的Scraper類,在processResponse(string $html)?方法里書寫一些代碼。首先,我們需要創(chuàng)建一個SymfonyComponentDomCrawlerCrawler?類的實例,它的構(gòu)造函數(shù)接受一個用于遍歷的 HTML 代碼字符串:


通過類 - jQuery 選擇器查找任意元素時,請使用filter()方法。然后,attr($attribute)方法允許提取已過濾元素的某個屬性:

filter(".image-section__image")->attr("src");
        echo $imageUrl . PHP_EOL;
    }
}

讓我們只打印提取出的圖片 URL,檢查下我們的 scraper 是否如期工作:

scrape([
    "https://www.pexels.com/photo/adorable-animal-blur-cat-617278/"
]);

$loop->run();

當運行這個腳本時,將會輸出所需圖片的完整 URL。然后我們要使用這個 URL 下載該圖片。 我們再次創(chuàng)建一個Browser實例,然后發(fā)起一個GET請求:

filter(".image-section__image")->attr("src");
        $this->client->get($imageUrl)->then(
            function(ResponseInterface $response) {
                // 存儲圖片到磁盤上
        });
    }
}

到達的響應攜帶了請求的圖片內(nèi)容。現(xiàn)在我們需要把它保存到磁盤上。但是請花費一點時間,不要使用file_put_contents()。所有的原生 PHP 函數(shù)都在文件系統(tǒng)下阻塞式運行。這意味著一旦你調(diào)用了file_put_contents(),我們的應用就會停止異步行為。然后流程控制會被阻塞直到文件保存完畢。ReactPHP 有個專門的包可以解決這個問題。

異步保存文件

要以非阻塞方式異步處理文件的話,我們需要一個叫做?reactphp/filesystem?的包。拉取下來:

composer require react/filesystem

要異步使用文件系統(tǒng),請創(chuàng)建一個Filesystem對象并把它作為依賴項提供給Scraper。此外,我們還需要提供一個目錄存放下載的圖片:

scrape([
    "https://www.pexels.com/photo/adorable-animal-blur-cat-617278/"
]);

$loop->run();

這是更新后Scraper的構(gòu)造函數(shù):

client = $client;
        $this->filesystem = $filesystem;
        $this->$directory = $directory;
    }

    // ...
}

好的,現(xiàn)在我們準備保存文件到磁盤上。首先,我們需要從 URL 提取文件名。圖片的 URL 看起來就像這樣:

https://images.pexels.com/pho...

這些 URL 的文件名是這樣的:

jumping-cute-playing-animals.jpg
pexels-photo-617278.jpeg

讓我們使用正則表達式從 URL 里提取出文件名。為了給磁盤上的未來文件獲取完整路徑,我們用目錄把名字串聯(lián)起來:

directory . DIRECTORY_SEPARATOR . $matches[1];

當我們有了一個文件路徑,就可以用它創(chuàng)建一個?文件?對象:

filesystem->file($filePath);

此對象表示我們要使用的文件。接著調(diào)用putContents($contents)?方法并提供一個響應體(response body)字符串:

filesystem->file($filePath);
$file->putContents((string)$response->getBody());

就是這樣。所有異步的底層魔法隱藏在一個多帶帶的方法內(nèi)。此 hook 會創(chuàng)建一個寫模式的流,寫入數(shù)據(jù)后關(guān)閉這個流。這是Scraper::processResponse(string $html)方法的更新版本:

filter(".image-section__image")->attr("src");
        preg_match("/photos/d+/([w-.]+)?/", $imageUrl, $matches);
        $filePath = $matches[1];

        $this->client->get($imageUrl)->then(
            function(ResponseInterface $response) use ($filePath) {
                $this->filesystem->file($filePath)->putContents((string)$response->getBody());
        });
    }
}

我們傳遞了一個完整路徑到響應的處理程序里。然后,我們創(chuàng)建了一個文件并填充了響應體。實際上,完整的Scraper只有不到 50 行的代碼!

注意:在你想存儲文件的位置先創(chuàng)建目錄。putContents()?方法只創(chuàng)建文件,不會為指定的文件創(chuàng)建文件夾。

scraper 完成了?,F(xiàn)在,打開你的主腳本,給scrape方法傳遞一個 URL 列表:

scrape([
    "https://www.pexels.com/photo/adorable-animal-blur-cat-617278/",
    "https://www.pexels.com/photo/kitten-cat-rush-lucky-cat-45170/",
    "https://www.pexels.com/photo/adorable-animal-baby-blur-177809/",
    "https://www.pexels.com/photo/adorable-animals-cats-cute-236230/",
    "https://www.pexels.com/photo/relaxation-relax-cats-cat-96428/",
]);

$loop->run();

上面的代碼爬取 5 個 URL 并下載相應圖片。所有這些工作會快速地異步完成。

[](https://user-gold-cdn.xitu.io...

結(jié)尾

在?上一個教程里,我們使用 ReactPHP 加速網(wǎng)站抓取過程并同時查詢頁面。但是,如果我們也需要同時保存文件呢?在異步的應用程序中,我們不能使用諸如file_put_contents()的原生 PHP 函數(shù),因為它們會阻塞程序流程,所以在磁盤上存儲圖片不會有任何加速。想要在 ReactPHP 里以異步 - 非阻塞的方式處理文件時,我們需要使用?reactphp/filesystem?包。

所以,在上面 50 行的代碼里,我們就能加速網(wǎng)站抓取并運行起來。這只是一個你也可以做的簡潔例子?,F(xiàn)在你有了怎樣構(gòu)建爬蟲的基礎(chǔ)知識,請嘗試做一個自己的吧!

我還有一些用 ReactPHP 抓取網(wǎng)站的文章:如果你想?使用代理?或者?限制并發(fā)請求的數(shù)量,可以閱讀一下。

*

你也可以從?GitHub?找到這篇文章的例子。

轉(zhuǎn)自 PHP / Laravel 開發(fā)者社區(qū) https://laravel-china.org/top...

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/29965.html

相關(guān)文章

  • 【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細新手實現(xiàn)(01)webdriv

    摘要:且本小白也親身經(jīng)歷了整個從小白到爬蟲初入門的過程,因此就斗膽在上開一個欄目,以我的圖片爬蟲全實現(xiàn)過程為例,以期用更簡單清晰詳盡的方式來幫助更多小白應對更大多數(shù)的爬蟲實際問題。 前言: 一個月前,博主在學過python(一年前)、會一點網(wǎng)絡(能按F12)的情況下,憑著熱血和興趣,開始了pyth...

    Half 評論0 收藏0
  • 首次公開,整理12年積累博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • 不再羨慕python,nodejs爬蟲擼起袖子就是干,爬取宅男女神網(wǎng)大姐姐高清圖片

    摘要:年前無心工作,上班刷知乎發(fā)現(xiàn)一篇分享爬蟲的文章。另外攜帶的數(shù)據(jù)是用來告訴服務器當前請求是從哪個頁面請求過來的。 年前無心工作,上班刷知乎發(fā)現(xiàn)一篇分享python爬蟲的文章。 感覺他爬取的網(wǎng)站里的妹子都好好看哦,超喜歡這里的,里面?zhèn)€個都是美女。 無小意丶:自我發(fā)掘爬蟲實戰(zhàn)1:宅男女神網(wǎng)妹子圖片批量抓取,分類保存到本地和MongoDB數(shù)據(jù)庫 無奈python雖然入門過但太久沒用早已荒廢,最...

    rubyshen 評論0 收藏0
  • 爬蟲requests模塊 入門到入獄 :基礎(chǔ)知識+實戰(zhàn)分析

    ?????? ???Hello,大家好我叫是Dream呀,一個有趣的Python博主,小白一枚,多多關(guān)照??? ???CSDN Python領(lǐng)域新星創(chuàng)作者,大二在讀,歡迎大家找我合作學習 ?入門須知:這片樂園從不缺乏天才,努力才是你的最終入場券!??? ?最后,愿我們都能在看不到的地方閃閃發(fā)光,一起加油進步??? ???一萬次悲傷,依然會有Dream,我一直在最溫暖的地方等你,唱的就是我!哈哈哈~...

    yagami 評論0 收藏0
  • Scrapy 實戰(zhàn)之爬取妹子圖

    摘要:很多人學習爬蟲的第一驅(qū)動力就是爬取各大網(wǎng)站的妹子圖片,比如比較有名的。最后我們只需要運行程序,即可執(zhí)行爬取,程序運行命名如下完整代碼我已上傳到微信公眾號后臺,在癡海公眾號后臺回復即可獲取。本文首發(fā)于公眾號癡海,后臺回復即可獲取最新編程資源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 閱讀文本大概需要 1...

    Achilles 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<