爬蟲與swift

marser 發(fā)布于2019-07-31 11:39 / 1140人閱讀

摘要：分析使用爬蟲爬取網(wǎng)站，并按事先的要求將需要的項(xiàng)目保存到數(shù)據(jù)庫中，然后再使用框架編寫一個(gè)服務(wù)器講數(shù)據(jù)庫中的數(shù)據(jù)讀出來，最后用編寫一個(gè)應(yīng)用將數(shù)據(jù)顯示出來。實(shí)現(xiàn)爬蟲實(shí)現(xiàn)上圖是的文檔結(jié)構(gòu)，下面主要介紹幾個(gè)文件。

分析

使用爬蟲爬取網(wǎng)站page，并按事先的要求將需要的項(xiàng)目保存到數(shù)據(jù)庫中，然后再使用python flask框架編寫一個(gè)web 服務(wù)器講數(shù)據(jù)庫中的數(shù)據(jù)讀出來，最后用swift編寫一個(gè)應(yīng)用將數(shù)據(jù)顯示出來。我這里選區(qū)的所要爬取的網(wǎng)站是豆瓣電影網(wǎng)。

技術(shù)選用

爬蟲：使用python的scrapy爬蟲
數(shù)據(jù)庫：使用mongoDB，存儲(chǔ)網(wǎng)頁只需要key和value形式進(jìn)行存儲(chǔ)就好了，所以在這里選擇mongoDB這種NOSQL數(shù)據(jù)庫進(jìn)行存儲(chǔ)
服務(wù)器：使用python的flask框架，用了你就知道幾行代碼就能完成很多事情，當(dāng)然特別是flask可以根據(jù)需要組裝空間，超輕量級。

實(shí)現(xiàn)：

scrapy爬蟲實(shí)現(xiàn)

上圖是scrapy的文檔結(jié)構(gòu)，下面主要介紹幾個(gè)文件。

a. items.py

from scrapy.item import Item, Field
import scrapy
class TopitmeItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = Field()
    dataSrc = Field()
    dataId = Field()
    filmReview = Field()
    startCount = Field()
這里可以把items.py看作是mvc中的model，在items里我們定義了自己需要的模型。

b. pipelines.py

import pymongo
from scrapy.conf import settings
from scrapy.exceptions import DropItem
from scrapy import log
class MongoDBPipeline(object):
    def __init__(self):
        connection = pymongo.MongoClient(
            settings["MONGODB_SERVER"],
            settings["MONGODB_PORT"]
        )
        db = connection[settings["MONGODB_DB"]]
        self.collection = db[settings[‘MONGODB_COLLECTION’]]
    def process_item(self, item, spider):
        valid = True
        for data in item:
            if not data:
                valid = False
                raise DropItem("Missing {0}!".format(data))
        if valid:
            self.collection.insert(dict(item))
            log.msg("Beauty added to MongoDB database!",
                    level=log.DEBUG, spider=spider)
        return item

俗稱管道，這個(gè)文件主要用來把我們獲取的item類型存入mongodb

c. settings.py

BOT_NAME = "topitme"
SPIDER_MODULES = ["topitme.spiders"]
NEWSPIDER_MODULE = "topitme.spiders"
BOT_NAME = "topitme"
ITEM_PIPELINES = ["topitme.pipelines.MongoDBPipeline",]
MONGODB_SERVER = "localhost"
MONGODB_PORT = 27017
MONGODB_DB = "topitme"
MONGODB_COLLECTION = "beauty"
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = "topitme (+http://www.yourdomain.com)"

這里需要設(shè)置一些常量，例如mongodb的數(shù)據(jù)庫名，數(shù)據(jù)庫地址和數(shù)據(jù)庫端口號等等

d. topitme_scrapy.py

from scrapy import Spider
from scrapy.selector import Selector
from topitme.items import TopitmeItem

import sys
reload(sys)
sys.setdefaultencoding(‘utf8’)#設(shè)置默認(rèn)編碼格式

class topitmeSpider(Spider):
    name = "topitmeSpider"
    allowed_domin =["movie.douban.com"]
    start_urls = [
        "http://movie.douban.com/review/latest/",
    ]
    def parse(self, response):
        results = Selector(response).xpath("http://ul[@class="tlst clearfix"]")
        for result in results:
            item = TopitmeItem()
            # item["title"] = result.xpath("li[@class="ilst"]/a/@src").extract()[0]
            item["title"] = result.xpath("li[@class="ilst"]/a/@title").extract()[0].encode("utf-8")
            item["dataSrc"] = result.xpath("li[@class="ilst"]/a/img/@src").extract()[0]
            item["filmReview"] = result.xpath("li[@class="clst report-link"]/div[@class="review-short"]/span/text()").extract()[0].encode("utf-8")
            item["dataId"] = result.xpath("li[@class="clst report-link"]/div[@class="review-short"]/@id").extract()[0]
            item["dataId"] = result.xpath("li[@class="nlst"]/h3/a/@title").extract()[0]
            item["startCount"] = 0
            yield item

# ul[@class="tlst clearfix"]/li[3]/div[1]
# //ul[@class="tlst clearfix"]/li[@class="ilst"]/a/img/@src

這個(gè)文件是爬蟲程序的主要代碼，首先我們定義了一個(gè)類名為topitmeSpider的類，繼承自Spider類，然后這個(gè)類有3個(gè)基礎(chǔ)的屬性，name表示這個(gè)爬蟲的名字，等一下我們在命令行狀態(tài)啟動(dòng)爬蟲的時(shí)候，爬蟲的名字就是name規(guī)定的。
allowed_domin意思就是指在movie.douban.com這個(gè)域名爬東西。
start_urls是一個(gè)數(shù)組，里面用來保存需要爬的頁面，目前我們只需要爬首頁。所以只有一個(gè)地址。
然后def parse就是定義了一個(gè)parse方法（肯定是override的，我覺得父類里肯定有一個(gè)同名方法），然后在這里進(jìn)行解析工作，這個(gè)方法有一個(gè)response參數(shù)，你可以把response想象成，scrapy這個(gè)框架在把start_urls里的頁面下載了，然后response里全部都是html代碼和css代碼。這之中最主要的是涉及一個(gè)xpath的東西，XPath即為XML路徑語言，它是一種用來確定XML（標(biāo)準(zhǔn)通用標(biāo)記語言的子集）文檔中某部分位置的語言?？梢酝ㄟ^xpath定位到我們想要獲取的元素。

服務(wù)器

使用python的flask框架實(shí)現(xiàn)

from flask import Flask, request
import json
from bson import json_util
from bson.objectid import ObjectId
import pymongo

app = Flask(__name__)

client = pymongo.MongoClient()
db = client["topitme"]
def toJson(data):
    return json.dumps(data, default=json_util.default)

@app.route("/FilmReview", methods=["GET"])

def findMovie():
    if request.method == "GET":
        json_results = []
        for result in results:
            json_results.append(result)
        return toJson(json_results)

if __name__ == "__main__":
    app.run(debug=True)



首先可以看到代碼，client，db兩個(gè)參量是為了取得數(shù)據(jù)庫連接。
findMovie函數(shù)響應(yīng)http request，然后返回?cái)?shù)據(jù)庫數(shù)據(jù)，以JSON形式返回

swift

ios的實(shí)現(xiàn)就不詳細(xì)介紹了，這里寫這部分只是為了，驗(yàn)證結(jié)果。

運(yùn)行：

起服務(wù)器：

起數(shù)據(jù)庫：

運(yùn)行爬蟲：

訪問服務(wù)器：http://localhost:5000/FileReview 可以看到數(shù)據(jù)已經(jīng)存儲(chǔ)到數(shù)據(jù)庫中了

ios運(yùn)行情況：

下面是原網(wǎng)站網(wǎng)頁展示，可以看到所要的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫，并且正常顯示出來

云服務(wù)器 GPU云服務(wù)器爬蟲與cdn 爬蟲與python swift swift21

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/45390.html

發(fā)表評論

登陸后可評論

0條評論

marser

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 2963·2023-04-25 22:16
寶塔面板安裝獨(dú)角數(shù)卡2.x版本(dujiaoka)

閱讀 2133·2021-10-11 11:11
小程序開發(fā)總結(jié)（一）

閱讀 3261·2019-08-29 13:26
前端JQ實(shí)現(xiàn)偽分頁

閱讀 608·2019-08-29 12:32
一道題看透函數(shù)柯里化

閱讀 3426·2019-08-26 11:49
利用VUE異步組件、動(dòng)態(tài)加載組件，實(shí)現(xiàn)自定義組件順序、動(dòng)態(tài)綁定傳入子組件的props、動(dòng)態(tài)綁定監(jiān)聽子

閱讀 3006·2019-08-26 10:30
history和hash詳解

閱讀 1958·2019-08-23 17:59
結(jié)合源碼徹底理解 react事件機(jī)制原理 04 - 事件執(zhí)行

閱讀 1523·2019-08-23 17:57

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

爬蟲與swift

相關(guān)文章

保存數(shù)據(jù)到MySql數(shù)據(jù)庫——我用scrapy寫爬蟲（二）

6月份最新語言排行：Java，Python我更看好誰？

SegmentFault 技術(shù)周刊 Vol.40 - 2018，來學(xué)習(xí)一門新的編程語言吧！

發(fā)表評論

0條評論

marser

男|高級講師

TA的文章

tensorflow

寶塔面板安裝獨(dú)角數(shù)卡2.x版本(dujiaoka)

小程序開發(fā)總結(jié)（一）

前端JQ實(shí)現(xiàn)偽分頁

一道題看透函數(shù)柯里化

利用VUE異步組件、動(dòng)態(tài)加載組件，實(shí)現(xiàn)自定義組件順序、動(dòng)態(tài)綁定傳入子組件的props、動(dòng)態(tài)綁定監(jiān)聽子

history和hash詳解

結(jié)合源碼徹底理解 react事件機(jī)制原理 04 - 事件執(zhí)行

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

爬蟲與swift

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！