成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

使用Scrapy框架爬取網(wǎng)頁并保存到Mysql

89542767 / 581人閱讀

  小編寫這篇文章的主要目的,主要是用來給大家做出一個(gè)解答,解答關(guān)于Scrapy框架的事情,主要是使用Scrapy框架,爬取網(wǎng)頁,然后保存到一個(gè)專業(yè)數(shù)據(jù)庫中,這個(gè)數(shù)據(jù)庫就是Mysql,那么,其具體要怎么實(shí)現(xiàn)呢?下面就給大家詳細(xì)的解答。


  大家好,這一期阿彬給大家分享Scrapy爬蟲框架與本地Mysql的使用。今天阿彬爬取的網(wǎng)頁是虎撲體育網(wǎng)。


 ?。?)打開虎撲體育網(wǎng),分析一下網(wǎng)頁的數(shù)據(jù),使用xpath定位元素。

01.png

  (2)在第一部分析網(wǎng)頁之后就開始創(chuàng)建一個(gè)scrapy爬蟲工程,在終端執(zhí)行以下命令:


  “scrapy startproject huty(注:‘hpty’是爬蟲項(xiàng)目名稱)”,得到了下圖所示的工程包:

02.png

  (3)進(jìn)入到“hpty/hpty/spiders”目錄下創(chuàng)建一個(gè)爬蟲文件叫‘“sww”,在終端執(zhí)行以下命令:“scrapy genspider sww”(4)在前兩步做好之后,對整個(gè)爬蟲工程相關(guān)的爬蟲文件進(jìn)行編輯。1、setting文件的編輯:


  把君子協(xié)議原本是True改為False。

03.png

  再把這行原本被注釋掉的代碼把它打開。

04.png

  2、對item文件進(jìn)行編輯,這個(gè)文件是用來定義數(shù)據(jù)類型,代碼如下:


  #Define here the models for your scraped items
  #
  #See documentation in:
  #https://docs.scrapy.org/en/latest/topics/items.html
  import scrapy
  class HptyItem(scrapy.Item):
  #define the fields for your item here like:
  #name=scrapy.Field()
  球員=scrapy.Field()
  球隊(duì)=scrapy.Field()
  排名=scrapy.Field()
  場均得分=scrapy.Field()
  命中率=scrapy.Field()
  三分命中率=scrapy.Field()
  罰球命中率=scrapy.Field()


  3、對最重要的爬蟲文件進(jìn)行編輯(即“hpty”文件),代碼如下:


  import scrapy
  from..items import HptyItem
  class SwwSpider(scrapy.Spider):
  name='sww'
  allowed_domains=['https://nba.hupu.com/stats/players']
  start_urls=['https://nba.hupu.com/stats/players']
  def parse(self,response):
  whh=response.xpath('//tbody/tr[not(class)]')
  for i in whh:
  排名=i.xpath(
  './td[1]/text()').extract()#排名
  球員=i.xpath(
  './td[2]/a/text()').extract()#球員
  球隊(duì)=i.xpath(
  './td[3]/a/text()').extract()#球隊(duì)
  場均得分=i.xpath(
  './td[4]/text()').extract()#得分
  命中率=i.xpath(
  './td[6]/text()').extract()#命中率
  三分命中率=i.xpath(
  './td[8]/text()').extract()#三分命中率
  罰球命中率=i.xpath(
  './td[10]/text()').extract()#罰球命中率
  data=HptyItem(球員=球員,球隊(duì)=球隊(duì),排名=排名,場均得分=場均得分,命中率=命中率,三分命中率=三分命中率,罰球命中率=罰球命中率)
  yield data


  4、對pipelines文件進(jìn)行編輯,代碼如下:


  #Define your item pipelines here
  #
  #Don't forget to add your pipeline to the ITEM_PIPELINES setting
  #See:https://docs.scrapy.org/en/latest/topics/item-pipeline.html
  #useful for handling different item types with a single interface
  from cursor import cursor
  from itemadapter import ItemAdapter
  import pymysql
  class HptyPipeline:
  def process_item(self,item,spider):
  db=pymysql.connect(host="Localhost",user="root",passwd="root",db="sww",charset="utf8")
  cursor=db.cursor()
  球員=item["球員"][0]
  球隊(duì)=item["球隊(duì)"][0]
  排名=item["排名"][0]
  場均得分=item["場均得分"][0]
  命中率=item["命中率"]
  三分命中率=item["三分命中率"][0]
  罰球命中率=item["罰球命中率"][0]
  #三分命中率=item["三分命中率"][0].strip('%')
  #罰球命中率=item["罰球命中率"][0].strip('%')
  cursor.execute(
  'INSERT INTO nba(球員,球隊(duì),排名,場均得分,命中率,三分命中率,罰球命中率)VALUES(%s,%s,%s,%s,%s,%s,%s)',
  (球員,球隊(duì),排名,場均得分,命中率,三分命中率,罰球命中率)
  )
  #對事務(wù)操作進(jìn)行提交
  db.commit()
  #關(guān)閉游標(biāo)
  cursor.close()
  db.close()
  return item


  (5)在scrapy框架設(shè)計(jì)好了之后,先到mysql創(chuàng)建一個(gè)名為“sww”的數(shù)據(jù)庫,在該數(shù)據(jù)庫下創(chuàng)建名為“nba”的數(shù)據(jù)表,代碼如下:1、創(chuàng)建數(shù)據(jù)庫

  create database sww;


  2、創(chuàng)建數(shù)據(jù)表

  create table nba(球員char(20),球隊(duì)char(10),排名char(10),場均得分char(25),命中率char(20),三分命中率char(20),罰球命中率char(20));


  3、通過創(chuàng)建數(shù)據(jù)庫和數(shù)據(jù)表可以看到該表的結(jié)構(gòu):

05.png

 ?。?)在mysql創(chuàng)建數(shù)據(jù)表之后,再次回到終端,輸入如下命令:“scrapy crawl sww”,得到的結(jié)果


  到此為止,這篇文章就為大家解答完畢了,希望可以給大家?guī)砀嗟膸椭?/p>

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/128244.html

相關(guān)文章

  • 從零開始寫爬蟲

    摘要:幾個(gè)朋友對爬蟲很感興趣,他們也都是開發(fā)人員,一個(gè)開發(fā)兩個(gè)開發(fā),都沒有過項(xiàng)目開發(fā)經(jīng)驗(yàn),正好其中一個(gè)最近要爬一個(gè)網(wǎng)店的產(chǎn)品信息,所以希望我能拿這網(wǎng)站當(dāng)寫一個(gè)爬蟲來給他們參考學(xué)習(xí)。我們就在這個(gè)文件里開發(fā)爬蟲的相關(guān)邏輯。 幾個(gè)朋友對爬蟲很感興趣,他們也都是開發(fā)人員,一個(gè)PHP開發(fā)兩個(gè)JAVA開發(fā),都沒有過python項(xiàng)目開發(fā)經(jīng)驗(yàn),正好其中一個(gè)最近要爬一個(gè)網(wǎng)店的產(chǎn)品信息,所以希望我能拿這網(wǎng)站當(dāng)d...

    wwq0327 評論0 收藏0
  • scrapy-redis分布式爬蟲框架詳解

    摘要:分布式爬蟲框架詳解隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會大眾參與社會生活的一種重要信息渠道。下載器中間件位于引擎和下載器之間的框架,主要是處理引擎與下載器之間的請求及響應(yīng)。 scrapy-redis分布式爬蟲框架詳解 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會大眾參與社會生活的一種重要信息渠道。由于互聯(lián)網(wǎng)是開放的,每個(gè)人都可以在網(wǎng)絡(luò)上...

    myeveryheart 評論0 收藏0
  • 爬蟲入門

    摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會采取一定的爬取策略。介紹是一個(gè)國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...

    defcon 評論0 收藏0
  • 爬蟲入門

    摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會采取一定的爬取策略。介紹是一個(gè)國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。 爬蟲 簡單的說網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對應(yīng)的網(wǎng)頁上,再把需要的信息鏟下來。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...

    Invoker 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<