得到 html
import requests html=requests.get("http://sc.hkex.com.hk/TuniS/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm").content解析數(shù)據(jù)
from pyquery import PyQuery as Q q=Q(html) tr = q("tr.tr_normal")導(dǎo)入 db
db=zpool["mysql+mysqldb://root:pwd@dbhost:3306/glhdb"] sqls = ["INSERT INTO `stocks_code` (`name`, `code`) VALUES ("{0}","{1}")".format(Q(i)("td")[0].text.encode("utf8","ignore"), ((Q(Q(i)("td")[1])("a") and Q(Q(i)("td")[1])("a")[0].text) or u"").encode("utf8","ignore").strip(")").strip(""").replace(""",""")) for i in tr[0:-3]] [db.execute(text(i)) for i in sqls]
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37348.html
摘要:準(zhǔn)備工作查看肯德基官網(wǎng)的請求方法請求。判斷得肯德基官網(wǎng)是請求通過這兩個準(zhǔn)備步驟,明確本次爬蟲目標(biāo)的請求肯德基官網(wǎng)獲取上??系禄攸c前頁。構(gòu)造不難發(fā)現(xiàn),肯德基官網(wǎng)的的一個共同點,我們把它保存為。 ...
摘要:返回結(jié)果如下,接下來我們便開始爬取西刺代理,首先我們打開瀏覽器查看網(wǎng)頁,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重復(fù)的等待秒將要爬取頁數(shù)的爬取好后存入數(shù)組,然后再對其中的逐一測試。 有時候在網(wǎng)站看小說,會莫名跳出來一個疑似機(jī)器惡意爬取,暫時無法訪問這樣類似的網(wǎng)站提示,需要刷新一下或者輸入一個驗證碼才能重新進(jìn)入,這樣的情況偶有發(fā)生,相信大家都有遇到過。出現(xiàn)這個現(xiàn)象的...
摘要:返回結(jié)果如下,接下來我們便開始爬取西刺代理,首先我們打開瀏覽器查看網(wǎng)頁,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重復(fù)的等待秒將要爬取頁數(shù)的爬取好后存入數(shù)組,然后再對其中的逐一測試。 有時候在網(wǎng)站看小說,會莫名跳出來一個疑似機(jī)器惡意爬取,暫時無法訪問這樣類似的網(wǎng)站提示,需要刷新一下或者輸入一個驗證碼才能重新進(jìn)入,這樣的情況偶有發(fā)生,相信大家都有遇到過。出現(xiàn)這個現(xiàn)象的...
摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
閱讀 805·2023-04-25 15:13
閱讀 1425·2021-11-22 12:03
閱讀 844·2021-11-19 09:40
閱讀 1929·2021-11-17 09:38
閱讀 1739·2021-11-08 13:18
閱讀 675·2021-09-02 15:15
閱讀 1791·2019-08-30 15:54
閱讀 2661·2019-08-30 11:12