摘要:前言為了獲取多源數(shù)據(jù)需要到各個網(wǎng)站獲取一些景點的評論信息和圖片,首先選到了攜程和螞蜂窩這兩個網(wǎng)站,將一些爬取過程記錄下來本人長期出售超大量微博數(shù)據(jù)旅游網(wǎng)站評論數(shù)據(jù),并提供各種指定數(shù)據(jù)爬取服務,。
前言
??為了獲取多源數(shù)據(jù)需要到各個網(wǎng)站獲取一些景點的評論信息和圖片,首先選到了攜程和螞蜂窩這兩個網(wǎng)站,將一些爬取過程記錄下來
??PS:(本人長期出售超大量微博數(shù)據(jù)、旅游網(wǎng)站評論數(shù)據(jù),并提供各種指定數(shù)據(jù)爬取服務,Message to [email protected]。同時歡迎加入社交媒體數(shù)據(jù)交流群:99918768)
攜程 分析數(shù)據(jù)??首先我們去攜程的鼓浪嶼景點速覽看一下我們要爬取的頁面,大概發(fā)現(xiàn)有幾十個景點,每個景點的結構應該都是差不多的,所以我們選擇第一個景點進去看看具體的頁面應該怎么爬取。
我們需要的是紅圈的部分,很容易可以知道這個評論頁面是動態(tài)加載的,所以不能直接用bs4或者正則直接提取元素,我們需要分析一下頁面動態(tài)傳輸?shù)慕涌?。打開chrome審查元素,切換到network查看一下傳輸?shù)膬热?,首先清空內容避免干擾,然后點擊下一頁,我們可以得到
通過查看傳回的數(shù)據(jù)我們可以得到這就是我們所要的接口,使用的是post進行傳輸,傳輸?shù)腇orm Data 有很多字段,大致可以猜測出來
poiID 是景點的poiID pagenow 是當前的頁數(shù) star 是評分1-5,0代表全部 resourceId 是一個每個資源對應的值
爬取的時候只需要改變這些值就可以根據(jù)自己的需求爬取內容了,但是需要注意的事攜程的pagenow最多只能獲取100頁,而且poiID和resourceId的值是沒有規(guī)律的,需要我們逐個景點查看...我自己依次找了鼓浪嶼所有景點的值,并存在文本中,文末有github的共享。
建庫??我們要做的第一件事就是想好數(shù)據(jù)庫的結構,我選擇的還是使用mysql,具體的結構如下:
獲取數(shù)據(jù)??這個我就不具體分析了,也不難,就是有幾個坑要注意一下。
第一,不是所有評論都有景色,性價比之類的評分,所以這里要加一個判斷。 第二,原來是有出行時間這一項的,現(xiàn)在好像沒有了額。 第三,評論文本可能會出現(xiàn)單引號,插入數(shù)據(jù)庫會出現(xiàn)錯誤,要轉義或者替代一下。 第四,抓取速度不要太快,攜程反扒還是比較厲害的。螞蜂窩 分析數(shù)據(jù)
??同樣,螞蜂窩的數(shù)據(jù)也是動態(tài)加載的,用相同的方法查看分析數(shù)據(jù)接口。
可以看到螞蜂窩的數(shù)據(jù)獲取方式是get,我們可以找出請求的url的規(guī)律。經(jīng)過比較不同景點和不同頁面的數(shù)據(jù),我們發(fā)現(xiàn)參數(shù)的改變主要在兩個地方,一個是poiid我用href代替,一個是頁數(shù)我用num代替。獲取景點的評論數(shù)據(jù)只要改變這兩個值就可以了
url="http://pagelet.mafengwo.cn/po...{href}%22%2C%22page%22%3A{num}%2C%22just_comment%22%3A1%7D"獲取每個景點的poi
這個不是post請求我們就不必一個個景點去獲取參數(shù)了,我們可以訪問這個站點來發(fā)現(xiàn)所有的用戶,然而這個站點的數(shù)據(jù)也是動態(tài)加載的
根據(jù)上面的圖片我們可以清晰的看到我們只需要傳入頁碼數(shù)就可以得到所有的景點的poiid,然后根據(jù)這些poiid我們就可以得到所有的評論數(shù)據(jù),這一部分我們用一個函數(shù)來處理
def get_param(): # 獲取所有景點的參數(shù) total = [] router_url = "http://www.mafengwo.cn/ajax/router.php" for num in range(1, 6): params = { "sAct": "KMdd_StructWebAjax|GetPoisByTag", "iMddid": 12522, "iTagId": 0, "iPage": num } pos = requests.post(url=router_url, data=params, headers=headers).json() soup_pos = BeautifulSoup(pos["data"]["list"], "lxml") result = [{"scenery": p["title"], "href": re.findall(re.compile(r"/poi/(d+).html"), p["href"])[0]} for p in soup_pos.find_all("a")] total.extend(result) return total
??其余部分相似,不再過多說明。
下面附上我的代碼
撒一波廣告本人長期出售抓取超大量微博數(shù)據(jù)的代碼,并提供微博數(shù)據(jù)打包出售,Message to [email protected]
個人博客8aoy1.cn
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/41110.html
摘要:前言為了獲取多源數(shù)據(jù)需要到各個網(wǎng)站獲取一些景點的評論信息和圖片,首先選到了攜程和螞蜂窩這兩個網(wǎng)站,將一些爬取過程記錄下來本人長期出售超大量微博數(shù)據(jù)旅游網(wǎng)站評論數(shù)據(jù),并提供各種指定數(shù)據(jù)爬取服務,。 前言 ??為了獲取多源數(shù)據(jù)需要到各個網(wǎng)站獲取一些景點的評論信息和圖片,首先選到了攜程和螞蜂窩這兩個網(wǎng)站,將一些爬取過程記錄下來 ??PS:(本人長期出售超大量微博數(shù)據(jù)、旅游網(wǎng)站評論數(shù)據(jù),并...
閱讀 2857·2023-04-25 18:58
閱讀 984·2021-11-25 09:43
閱讀 1219·2021-10-25 09:46
閱讀 3506·2021-09-09 11:40
閱讀 1707·2021-08-05 09:59
閱讀 878·2019-08-29 15:07
閱讀 965·2019-08-29 12:48
閱讀 707·2019-08-29 11:19