（轉(zhuǎn)）Python3爬取豆瓣電影保存到MySQL數(shù)據(jù)庫(kù)

nevermind 發(fā)布于2019-07-31 10:15 / 3192人閱讀

摘要：行代碼實(shí)現(xiàn)爬取豆瓣電影排行榜代碼基于，用到的類庫(kù)有標(biāo)題文字通過(guò)偽造請(qǐng)求頭或設(shè)置代理等方式獲取頁(yè)面內(nèi)容，參考文檔對(duì)頁(yè)面進(jìn)行解析，提取數(shù)據(jù)，參考文檔版本中用于操作數(shù)據(jù)庫(kù)，中則使用，安裝用到的幾個(gè)類庫(kù)分析豆瓣電影頁(yè)面頁(yè)面分析爬取數(shù)據(jù)之前，我們都需

48行代碼實(shí)現(xiàn)Python3爬取豆瓣電影排行榜
代碼基于python3，用到的類庫(kù)有:

標(biāo)題文字

requests:通過(guò)偽造請(qǐng)求頭或設(shè)置代理等方式獲取頁(yè)面內(nèi)容，參考文檔
BeautifulSoup:對(duì)頁(yè)面進(jìn)行解析，提取數(shù)據(jù)，參考文檔
PyMySQL:python3版本中用于操作MySQL數(shù)據(jù)庫(kù)，python2中則使用mysqldb，Github

pip安裝用到的幾個(gè)類庫(kù):

pip install requests
pip install bs4
pip install pymysql
分析豆瓣電影頁(yè)面
頁(yè)面分析:
爬取數(shù)據(jù)之前，我們都需要對(duì)頁(yè)面進(jìn)行分析，看我們可以從中提取到哪些數(shù)據(jù)，從下圖我們看到豆瓣電影top250的頁(yè)面結(jié)構(gòu)，我們可以從中提取出排行榜(rank)、電影名字(name)、電影詳情頁(yè)鏈接(link)、電影海報(bào)(poster)、電影評(píng)分(score)、電影評(píng)論(quote)等，我在圖中進(jìn)行了標(biāo)注

URL分析:
通過(guò)點(diǎn)擊分頁(yè)我們可以發(fā)現(xiàn)URL的格式為:https://movie.douban.com/top2...
其中num表示25的倍數(shù)的數(shù)字，最小是0也就是第一頁(yè)，最大為225也就是最后一頁(yè)，這可以作為我們爬取頁(yè)面的限制條件，filter為過(guò)濾條件這里可不用管

代碼
引入類庫(kù):

import pymysql
import requests
from bs4 import BeautifulSoup
定義爬取鏈接，%d用作數(shù)字占位:

baseUrl = "https://movie.douban.com/top250?start=%d&filter="
定義爬取數(shù)據(jù)方法:

def get_movies(start):

url = baseUrl % start   # 拼接爬取鏈接
lists = []              # 存儲(chǔ)此頁(yè)面的電影數(shù)據(jù)
html = requests.get(url)    # requests請(qǐng)求頁(yè)面內(nèi)容，由于豆瓣沒(méi)有限制爬取，所以不用設(shè)置偽請(qǐng)求頭
soup = BeautifulSoup(html.content, "html.parser")   # BeautifulSoup解析頁(yè)面內(nèi)容
items = soup.find("ol", "grid_view").find_all("li") # 獲取所有的電影內(nèi)容
for i in items:
    movie = {}      # 臨時(shí)存取電影的數(shù)據(jù)
    movie["rank"] = i.find("em").text   # 電影排行榜
    movie["link"] = i.find("div","pic").find("a").get("href")   # 電影詳情頁(yè)鏈接
    movie["poster"] = i.find("div","pic").find("a").find("img").get("src")  # 電影海報(bào)地址
    movie["name"] = i.find("span", "title").text    # 電影名字
    movie["score"] = i.find("span", "rating_num").text  # 電影評(píng)分
    movie["quote"] = i.find("span", "inq").text if(i.find("span", "inq")) else "" # 某些電影沒(méi)有點(diǎn)評(píng)，沒(méi)有就設(shè)為空
    lists.append(movie) # 保存到返回?cái)?shù)組中
return lists

連接數(shù)據(jù)庫(kù)并創(chuàng)建數(shù)據(jù)表:

連接數(shù)據(jù)庫(kù)，需指定charset否則可能會(huì)報(bào)錯(cuò)

db = pymysql.connect(host="localhost",user="root",password="root",db="test",charset="utf8mb4")
cursor = db.cursor() # 創(chuàng)建一個(gè)游標(biāo)對(duì)象
cursor.execute("DROP TABLE IF EXISTS movies") # 如果表存在則刪除

創(chuàng)建表sql語(yǔ)句

createTab = """CREATE TABLE movies(

id INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
name VARCHAR(20) NOT NULL,
rank VARCHAR(4) NOT NULL,
link VARCHAR(50) NOT NULL,
poster VARCHAR(100) NOT NULL,
score VARCHAR(4) NOT NULL,
quote VARCHAR(50)

)"""
cursor.execute(createTab) # 執(zhí)行創(chuàng)建數(shù)據(jù)表操作
......
db.close() # 關(guān)閉數(shù)據(jù)庫(kù)
將提取到的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)表中:

lists = get_movies(start) # 獲取提取到數(shù)據(jù)

for i in lists:
    # 插入數(shù)據(jù)到數(shù)據(jù)庫(kù)sql語(yǔ)句，%s用作字符串占位
    sql = "INSERT INTO `movies`(`name`,`rank`,`link`,`poster`,`score`,`quote`) VALUES(%s,%s,%s,%s,%s,%s)"
    try:
        cursor.execute(sql, (i["name"], i["rank"], i["link"], i["poster"], i["score"], i["quote"]))
        db.commit()
        print(i[0]+" is success")
    except:
        db.rollback()
start += 25

完整代碼:

import pymysql
import requests
from bs4 import BeautifulSoup
baseUrl = "https://movie.douban.com/top250?start=%d&filter="
def get_movies(start):

url = baseUrl % start
lists = []
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
items = soup.find("ol", "grid_view").find_all("li")
for i in items:
    movie = {}
    movie["rank"] = i.find("em").text
    movie["link"] = i.find("div","pic").find("a").get("href")
    movie["poster"] = i.find("div","pic").find("a").find("img").get("src")
    movie["name"] = i.find("span", "title").text
    movie["score"] = i.find("span", "rating_num").text
    movie["quote"] = i.find("span", "inq").text if(i.find("span", "inq")) else ""
    lists.append(movie)
return lists

if name == "__main__":

db = pymysql.connect(host="localhost",user="root",password="root",db="test",charset="utf8mb4")

云服務(wù)器 GPU云服務(wù)器保存到MySQL數(shù)據(jù)庫(kù) 豆瓣電影數(shù)據(jù)分析可視化豆瓣電影 python豆瓣電影

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/43503.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

nevermind

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow1.8

閱讀 3574·2023-04-26 00:05
C語(yǔ)言實(shí)現(xiàn)入門級(jí)小游戲——掃雷

閱讀 963·2021-11-11 16:55
單片機(jī)入門指南

閱讀 3541·2021-09-26 09:46
TP5實(shí)現(xiàn)表格拖動(dòng)排序并保存到數(shù)據(jù)庫(kù)功能

閱讀 3528·2019-08-30 15:56
前端基礎(chǔ)入門五（掌握jQuery的常用api，實(shí)現(xiàn)動(dòng)態(tài)效果）

閱讀 920·2019-08-30 15:55
【零基礎(chǔ)入門】 css學(xué)習(xí)筆記（4）布局與定位介紹

閱讀 2947·2019-08-30 15:53
關(guān)于響應(yīng)式布局，你必須要知道的

閱讀 1960·2019-08-29 17:11
python大佬養(yǎng)成計(jì)劃----HTML網(wǎng)頁(yè)設(shè)計(jì)（表單）

閱讀 826·2019-08-29 16:52

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

（轉(zhuǎn)）Python3爬取豆瓣電影保存到MySQL數(shù)據(jù)庫(kù)

相關(guān)文章

scrapy入門教程——爬取豆瓣電影Top250！

**爬取豆瓣電影top250提取電影分類進(jìn)行數(shù)據(jù)分析**

爬蟲 - 收藏集 - 掘金

80行代碼爬取豆瓣Top250電影信息并導(dǎo)出到csv及數(shù)據(jù)庫(kù)

發(fā)表評(píng)論

0條評(píng)論

nevermind

男|高級(jí)講師

TA的文章

tensorflow1.8

C語(yǔ)言實(shí)現(xiàn)入門級(jí)小游戲——掃雷

單片機(jī)入門指南

TP5實(shí)現(xiàn)表格拖動(dòng)排序并保存到數(shù)據(jù)庫(kù)功能

前端基礎(chǔ)入門五（掌握jQuery的常用api，實(shí)現(xiàn)動(dòng)態(tài)效果）

【零基礎(chǔ)入門】 css學(xué)習(xí)筆記（4）布局與定位介紹

關(guān)于響應(yīng)式布局，你必須要知道的

python大佬養(yǎng)成計(jì)劃----HTML網(wǎng)頁(yè)設(shè)計(jì)（表單）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

（轉(zhuǎn)）Python3爬取豆瓣電影保存到MySQL數(shù)據(jù)庫(kù)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！