摘要:坦克大戰(zhàn)上簡(jiǎn)介上的坦克大戰(zhàn)相信大家都玩過(guò)有逃學(xué)玩坦克的可以自己默默的扣一個(gè)了我們現(xiàn)在長(zhǎng)大了,學(xué)習(xí)游戲開(kāi)發(fā)了。
寫(xiě)在前面
上一篇(https://www.tech1024.cn/origi... )說(shuō)了如何創(chuàng)建項(xiàng)目,并爬去網(wǎng)站內(nèi)容,下面我們說(shuō)一下如何保存爬去到的數(shù)據(jù)
開(kāi)始爬取創(chuàng)建Spider,上一篇我們已經(jīng)創(chuàng)建了ImoocSpider,我們做一下修改,可以連續(xù)下一頁(yè)爬取。
scrapyDemo/spiders目錄下的ImoocSpider類(lèi):
# -*- coding: utf-8 -*- import scrapy from urllib import parse as urlparse from scrapyDemo.ImoocCourseItem import ImoocCourseItem # 慕課網(wǎng)爬取 class ImoocSpider(scrapy.Spider): # spider的名字定義了Scrapy如何定位(并初始化)spider,所以其必須是唯一的 name = "imooc" # URL列表 start_urls = ["http://www.imooc.com/course/list"] # 域名不在列表中的URL不會(huì)被爬取。 allowed_domains = ["www.imooc.com"] def parse(self, response): learn_nodes = response.css("a.course-card") item = ImoocCourseItem() # 遍歷該頁(yè)上所有課程列表 for learn_node in learn_nodes: course_url = learn_node.css("::attr(href)").extract_first() # 拼接課程詳情頁(yè)地址 course_url = urlparse.urljoin(response.url, course_url) # 課程地址 item["course_url"] = course_url # 課程圖片 item["image"] = learn_node.css( "img.course-banner::attr(src)").extract_first() # 進(jìn)入課程詳情頁(yè)面 yield scrapy.Request( url=course_url, callback=self.parse_learn, meta=item) # 下一頁(yè)地址 next_page_url = response.css( u"div.page a:contains("下一頁(yè)")::attr(href)").extract_first() if next_page_url: yield scrapy.Request( url=urlparse.urljoin(response.url, next_page_url), callback=self.parse) def parse_learn(self, response): item = response.meta # 課程標(biāo)題 item["title"] = response.xpath( "http://h2[@class="l"]/text()").extract_first() # 課程簡(jiǎn)介 item["brief"] = response.xpath( "http://div[@class="course-brief"]/p/text()").extract_first() yield item
這里用到了scrapyDemo目錄下ImoocCourseItem類(lèi),下面我就說(shuō)一下。
Item數(shù)據(jù)容器在scrapyDemo目錄下創(chuàng)建ImoocCourseItem.py,這個(gè)類(lèi)就是我們用了保存數(shù)據(jù)的容器,我們定義了標(biāo)題、圖片、簡(jiǎn)介、地址。
scrapyDemo目錄下ImoocCourseItem類(lèi):
# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class ImoocCourseItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() # cate = scrapy.Field() image = scrapy.Field() # desc = scrapy.Field() brief = scrapy.Field() # cate = scrapy.Field() course_url = scrapy.Field() passPipeline管道
Pipeline是用來(lái)處理抓取到的數(shù)據(jù),我們?cè)趕crapyDemo目錄下創(chuàng)建ScrapydemoPipeline.py類(lèi)
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don"t forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapyDemo.db.dbhelper import DBHelper class ScrapydemoPipeline(object): # 連接數(shù)據(jù)庫(kù) def __init__(self): self.db = DBHelper() def process_item(self, item, spider): # 插入數(shù)據(jù)庫(kù) self.db.insert(item) return item
別忘了在配置文件中開(kāi)啟管道哦,scrapyDemo目錄下的settings.py文件中,找到下ITEM_PIPELINES,修改為
ITEM_PIPELINES = { "scrapyDemo.pipelines.ScrapydemoPipeline": 300, }數(shù)據(jù)庫(kù)操作
這里面我們用到了數(shù)據(jù)庫(kù)的操作DBHelper類(lèi),那么我們?cè)趕crapyDemo/db目錄下創(chuàng)建dbhelper.py 模塊,記得再創(chuàng)建一個(gè)__init__.py哦。
# -*- coding: utf-8 -*- import pymysql from twisted.enterprise import adbapi from scrapy.utils.project import get_project_settings #導(dǎo)入seetings配置 import time class DBHelper(): """這個(gè)類(lèi)也是讀取settings中的配置,自行修改代碼進(jìn)行操作""" def __init__(self): settings = get_project_settings() #獲取settings配置,設(shè)置需要的信息 dbparams = dict( host=settings["MYSQL_HOST"], #讀取settings中的配置 db=settings["MYSQL_DBNAME"], user=settings["MYSQL_USER"], passwd=settings["MYSQL_PASSWD"], charset="utf8", #編碼要加上,否則可能出現(xiàn)中文亂碼問(wèn)題 cursorclass=pymysql.cursors.DictCursor, use_unicode=False, ) #**表示將字典擴(kuò)展為關(guān)鍵字參數(shù),相當(dāng)于host=xxx,db=yyy.... dbpool = adbapi.ConnectionPool("pymysql", **dbparams) self.dbpool = dbpool def connect(self): return self.dbpool #創(chuàng)建數(shù)據(jù)庫(kù) def insert(self, item): sql = "insert into tech_courses(title,image,brief,course_url,created_at) values(%s,%s,%s,%s,%s)" #調(diào)用插入的方法 query = self.dbpool.runInteraction(self._conditional_insert, sql, item) #調(diào)用異常處理方法 query.addErrback(self._handle_error) return item #寫(xiě)入數(shù)據(jù)庫(kù)中 def _conditional_insert(self, tx, sql, item): item["created_at"] = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(time.time())) params = (item["title"], item["image"], item["brief"], item["course_url"], item["created_at"]) tx.execute(sql, params) #錯(cuò)誤處理方法 def _handle_error(self, failue): print("--------------database operation exception!!-----------------") print(failue)
這里用到了pymysql和adbapi,adbapi是python的數(shù)據(jù)庫(kù)連接池,可以pip安裝:
pip install pymysql pip install Twisted
這里面還用到了get_project_settings方法,意思是從配置文件settings.py里邊獲取數(shù)據(jù)庫(kù)配置信息,我們?cè)趕crapyDemo目錄下的settings.py文件最后加入數(shù)據(jù)庫(kù)信息
#Mysql數(shù)據(jù)庫(kù)的配置信息 MYSQL_HOST = "192.168.6.1" MYSQL_DBNAME = "scrapy_demo_db" #數(shù)據(jù)庫(kù)名字,請(qǐng)修改 MYSQL_USER = "root" #數(shù)據(jù)庫(kù)賬號(hào),請(qǐng)修改 MYSQL_PASSWD = "abc-123" #數(shù)據(jù)庫(kù)密碼,請(qǐng)修改 MYSQL_PORT = 3306 #數(shù)據(jù)庫(kù)端口,在dbhelper中使用
建表語(yǔ)句如下:
DROP TABLE IF EXISTS `tech_courses`; CREATE TABLE `tech_courses` ( `id` int(11) NOT NULL AUTO_INCREMENT, `title` varchar(255) DEFAULT NULL, `image` varchar(255) DEFAULT NULL, `brief` varchar(255) DEFAULT NULL, `course_url` varchar(255) DEFAULT NULL, `created_at` timestamp NULL DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8mb4;大功告成
我們?cè)诿钚羞\(yùn)行項(xiàng)目
F: echleepythonscrapyDemo>scrapy crawl imooc 2017-10-25 23:29:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapyDemo) 2017-10-25 23:29:18 [scrapy.utils.log] INFO: Overridden settings: {"BOT_NAME": "scrapyDemo", "NEWSPIDER_MODULE": "scrapyDemo.spiders", "ROBOTSTXT_OBEY": True, "SPIDER_MODULES": ["scrapyDemo.spiders"]} 2017-10-25 23:29:19 [scrapy.middleware] INFO: Enabled extensions: ["scrapy.extensions.corestats.CoreStats", …… 2017-10-26 00:06:48 [scrapy.core.engine] DEBUG: Crawled (200)(referer: http://www.imooc.com/course/list?page=26) 2017-10-26 00:06:48 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.imooc.com/learn/127> {"course_url": "http://www.imooc.com/learn/127", "image": "http://img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg", "depth": 26, "download_timeout": 180.0, "download_slot": "www.imooc.com", "retry_times": 1, "download_latency": 0.24331021308898926, "title": "玩兒轉(zhuǎn)Swift", "brief": "簡(jiǎn)介:我們期望用戶在看完這套教程后,對(duì)swift語(yǔ)言的了解能達(dá)到中上水平。這意味著在接觸Cocoa Touch將一點(diǎn)兒都不費(fèi)勁,對(duì)一些高級(jí)概念,諸如閉包 、協(xié)議、泛型、內(nèi)存管理都能有所理解并且有所實(shí)踐。這套教程一定比市面上普遍看到的Swift中文教程深入,并且演示示例更豐富。"} 2017-10-26 00:06:48 [scrapy.core.engine] INFO: Closing spider (finished) 2017-10-26 00:06:48 [scrapy.statscollectors] INFO: Dumping Scrapy stats: {"downloader/exception_count": 24, "downloader/exception_type_count/twisted.internet.error.TimeoutError": 24, "downloader/request_bytes": 359595, "downloader/request_count": 836, "downloader/request_method_count/GET": 836, "downloader/response_bytes": 8680952, "downloader/response_count": 812, "downloader/response_status_count/200": 812, "finish_reason": "finished", "finish_time": datetime.datetime(2017, 10, 25, 16, 6, 48, 884826), "item_scraped_count": 779, "log_count/DEBUG": 1616, "log_count/INFO": 18, "log_count/WARNING": 1, "request_depth_max": 32, "response_received_count": 812, "retry/count": 24, "retry/reason_count/twisted.internet.error.TimeoutError": 24, "scheduler/dequeued": 835, "scheduler/dequeued/memory": 835, "scheduler/enqueued": 835, "scheduler/enqueued/memory": 835, "start_time": datetime.datetime(2017, 10, 25, 15, 55, 43, 289328)} 2017-10-26 00:06:48 [scrapy.core.engine] INFO: Spider closed (finished)
如果沒(méi)有報(bào)錯(cuò),我們的數(shù)據(jù)庫(kù)是不是有數(shù)據(jù)了呢
779 玩兒轉(zhuǎn)Swift //img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg 簡(jiǎn)介:我們期望用戶在看完這套教程后,對(duì)swift語(yǔ)言的了解能達(dá)到中上水平。這意味著在接觸Cocoa Touch將一點(diǎn)兒都不費(fèi)勁,對(duì)一些高級(jí)概念,諸如閉包、協(xié)議、泛型、內(nèi)存管理都能有所理解并且有所實(shí)踐。這套教程一定比市面上普遍看到的Swift中文教程深入,并且演示示例更豐富。 http://www.imooc.com/learn/127 2017-10-26 00:06:48 778 iOS9那些神坑 //img1.mukewang.com/576b7a6a0001573206000338-240-135.jpg 簡(jiǎn)介:為啥我用iOS9開(kāi)發(fā)的應(yīng)用無(wú)法進(jìn)行網(wǎng)絡(luò)請(qǐng)求?為啥多出了一個(gè)Bitcode編譯選項(xiàng)?什么又是白名單呢?這些都是iOS9的一些新特性,在我們的這門(mén)課程中都會(huì)為大家一一介紹。 http://www.imooc.com/learn/609 2017-10-26 00:06:08 777 Cocos2d-x坦克大戰(zhàn)--上 //img4.mukewang.com/570763d20001662806000338-240-135.jpg 簡(jiǎn)介:FC上的坦克大戰(zhàn)相信大家都玩過(guò)~有逃學(xué)玩坦克的可以自己默默的扣一個(gè)1了~我們現(xiàn)在長(zhǎng)大了,學(xué)習(xí)游戲開(kāi)發(fā)了。有沒(méi)有想過(guò)將小時(shí)候玩過(guò)的游戲復(fù)刻出來(lái)了?不為了彰顯自己的技術(shù),只為了小時(shí)候因?yàn)橥嬗螒蚨訉W(xué)挨過(guò)的打。由資深游戲開(kāi)發(fā)者徐波老師為大家復(fù)刻的FC坦克大戰(zhàn)吧 http://www.imooc.com/learn/610 2017-10-26 00:06:08 776 快速入門(mén)ThinkPHP 5.0 --模型篇 //img2.mukewang.com/594cf6120001ddaf06000338-240-135.jpg 簡(jiǎn)介:一個(gè)標(biāo)準(zhǔn)的網(wǎng)站一定離不開(kāi)數(shù)據(jù)庫(kù)的操作,在本套課程中我和你一起來(lái)揭開(kāi)ThinkPHP5 數(shù)據(jù)操作的神秘面紗,和你一起愉快的使用 ThinkPHP5 操作數(shù)據(jù)庫(kù),讓數(shù)據(jù)庫(kù)操作變的更愉悅。 http://www.imooc.com/learn/854 2017-10-26 00:06:08 775 MongoDB Day 2015 深圳 //img4.mukewang.com/56779555000160d106000338-240-135.jpg 簡(jiǎn)介:本次年度大會(huì)由來(lái)自MongoDB內(nèi)部的專(zhuān)家以及各行業(yè)MongoDB大牛關(guān)于數(shù)據(jù)安全、wiredtiger內(nèi)部機(jī)制、OpsManager以及在其它行業(yè)方面的成功案例。大會(huì)吸引了200多位MongoDB愛(ài)好者,會(huì)場(chǎng)內(nèi)座無(wú)虛席! http://www.imooc.com/learn/562 2017-10-26 00:06:08 774 web安全之SQL注入 //img1.mukewang.com/5991489e00019f5c06000338-240-135.jpg 簡(jiǎn)介:SQL注入自從WEB和數(shù)據(jù)庫(kù)發(fā)展以來(lái)就一直存在,而且給WEB應(yīng)用帶來(lái)很大的安全問(wèn)題,會(huì)造成用戶隱私數(shù)據(jù)的泄露,數(shù)據(jù)庫(kù)版本信息泄露和數(shù)據(jù)庫(kù)攻擊等,給業(yè)務(wù)帶來(lái)很大的損失和不好的社會(huì)影響。所以對(duì)于我們WEB開(kāi)發(fā)人員來(lái)說(shuō),項(xiàng)目開(kāi)發(fā)過(guò)程中一定要培養(yǎng)一定的安全意識(shí),了解SQL注入的定義,產(chǎn)生的原理、具體的一些攻擊手法和相應(yīng)的預(yù)防措施,為了更好的增加開(kāi)發(fā)項(xiàng)目的健壯性和安全性 http://www.imooc.com/learn/883 2017-10-26 00:06:07 773 那些年你遇到的錯(cuò)誤與異常 //img3.mukewang.com/572b06f40001d1c806000338-240-135.jpg 簡(jiǎn)介:本課程主要講解兩部分內(nèi)容,先從PHP中的錯(cuò)誤模塊談起,講解了PHP中常見(jiàn)的錯(cuò)誤類(lèi)型,剖析了PHP中的錯(cuò)誤處理。接著又講解了PHP5面向?qū)ο筮^(guò)程中新的錯(cuò)誤處理方式--異常模塊,由淺入深,講解異常及異常的實(shí)戰(zhàn)應(yīng)用等。 http://www.imooc.com/learn/380 2017-10-26 00:06:07 772 基于Websocket的火拼俄羅斯(基礎(chǔ)) //img3.mukewang.com/59ed96eb0001fe3606000338-240-135.jpg 簡(jiǎn)介:本課程主要帶領(lǐng)大家了解要實(shí)現(xiàn)火拼俄羅斯的基礎(chǔ)知識(shí)WebSocket,以及socket.io,為后續(xù)實(shí)現(xiàn)火拼俄羅斯打下基礎(chǔ)。 http://www.imooc.com/learn/861 2017-10-26 00:06:07 771 Java定時(shí)任務(wù)調(diào)度工具詳解之Quartz篇 //img1.mukewang.com/5940992d0001cae906000338-240-135.jpg 簡(jiǎn)介:本課程是系列課程Java定時(shí)任務(wù)調(diào)度工具詳解中的Quartz篇,本系列課程旨在通過(guò)詳細(xì)講述Java定時(shí)調(diào)度工具的基本概念、工具,和這些工具里面包含的各個(gè)組件之間的關(guān)系,以及如何使用這些工具來(lái)實(shí)現(xiàn)定時(shí)調(diào)度功能,讓學(xué)生能夠?qū)ava定時(shí)調(diào)度工具有一個(gè)清晰而準(zhǔn)確的認(rèn)識(shí)。然后結(jié)合一些經(jīng)典的使用場(chǎng)景通過(guò)手把手的命令行操作進(jìn)行教學(xué),使同學(xué)們得心用手地使用這些定時(shí)調(diào)度工具來(lái)實(shí)現(xiàn)自己想要的功能。講師實(shí)戰(zhàn)課程已經(jīng)上線,詳情:http://coding.imooc.com/learn/list/144.html http://www.imooc.com/learn/846 2017-10-26 00:06:07
原文 https://www.tech1024.cn/origi...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/40980.html
摘要:寫(xiě)在前面用寫(xiě)爬蟲(chóng)的人很多,的爬蟲(chóng)框架也很多,諸如和,筆者還是筆記傾向于,本文就用寫(xiě)一個(gè)小爬蟲(chóng)。本文適用于有一定基礎(chǔ)的,并且對(duì)爬蟲(chóng)有一定了解的開(kāi)發(fā)者。 寫(xiě)在前面 用python寫(xiě)爬蟲(chóng)的人很多,python的爬蟲(chóng)框架也很多,諸如pyspider 和 scrapy,筆者還是筆記傾向于scrapy,本文就用python寫(xiě)一個(gè)小爬蟲(chóng)demo。本文適用于有一定python基礎(chǔ)的,并且對(duì)爬蟲(chóng)有一定了...
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:爬取百思不得姐首先一步一步來(lái),我們先從爬最簡(jiǎn)單的文本開(kāi)始。將百思不得姐段子保存到中別忘了將管道加到配置文件中。雖然我只是簡(jiǎn)單的爬了百思不得姐,不過(guò)這些方法可以應(yīng)用到其他方面,爬取更多更有用的數(shù)據(jù)。 前一篇文章介紹了很多關(guān)于scrapy的進(jìn)階知識(shí),不過(guò)說(shuō)歸說(shuō),只有在實(shí)際應(yīng)用中才能真正用到這些知識(shí)。所以這篇文章就來(lái)嘗試?yán)胹crapy爬取各種網(wǎng)站的數(shù)據(jù)。 爬取百思不得姐 首先一步一步來(lái),我...
摘要:幾個(gè)朋友對(duì)爬蟲(chóng)很感興趣,他們也都是開(kāi)發(fā)人員,一個(gè)開(kāi)發(fā)兩個(gè)開(kāi)發(fā),都沒(méi)有過(guò)項(xiàng)目開(kāi)發(fā)經(jīng)驗(yàn),正好其中一個(gè)最近要爬一個(gè)網(wǎng)店的產(chǎn)品信息,所以希望我能拿這網(wǎng)站當(dāng)寫(xiě)一個(gè)爬蟲(chóng)來(lái)給他們參考學(xué)習(xí)。我們就在這個(gè)文件里開(kāi)發(fā)爬蟲(chóng)的相關(guān)邏輯。 幾個(gè)朋友對(duì)爬蟲(chóng)很感興趣,他們也都是開(kāi)發(fā)人員,一個(gè)PHP開(kāi)發(fā)兩個(gè)JAVA開(kāi)發(fā),都沒(méi)有過(guò)python項(xiàng)目開(kāi)發(fā)經(jīng)驗(yàn),正好其中一個(gè)最近要爬一個(gè)網(wǎng)店的產(chǎn)品信息,所以希望我能拿這網(wǎng)站當(dāng)d...
閱讀 9056·2021-11-18 10:02
閱讀 2602·2019-08-30 15:43
閱讀 2663·2019-08-30 13:50
閱讀 1382·2019-08-30 11:20
閱讀 2712·2019-08-29 15:03
閱讀 3633·2019-08-29 12:36
閱讀 933·2019-08-23 17:04
閱讀 624·2019-08-23 14:18