成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

基于Python爬取天眼查網(wǎng)站的企業(yè)信息

waltr / 2771人閱讀

摘要:爬蟲(chóng)簡(jiǎn)介這是一個(gè)在未登錄的情況下,根據(jù)企業(yè)名稱搜索,爬取企業(yè)頁(yè)面數(shù)據(jù)的采集程序注意這是一個(gè)比較簡(jiǎn)單的爬蟲(chóng),基本上只用到了代理,沒(méi)有用到其他的反反爬技術(shù),不過(guò)由于爬取的數(shù)據(jù)比較多,適合刷解析技能的熟練度,所以高手勿進(jìn)代碼已經(jīng)上傳到上,有用還請(qǐng)

爬蟲(chóng)簡(jiǎn)介


這是一個(gè)在未登錄的情況下,根據(jù)企業(yè)名稱搜索,爬取企業(yè)頁(yè)面數(shù)據(jù)的采集程序

注意: 這是一個(gè)比較簡(jiǎn)單的爬蟲(chóng),基本上只用到了代理,沒(méi)有用到其他的反反爬技術(shù),不過(guò)由于爬取的數(shù)據(jù)比較多,適合刷解析技能的熟練度,所以高手勿進(jìn)

代碼已經(jīng)上傳到GitHub上,有用還請(qǐng)給個(gè)星

python版本:python2.7

編碼工具:pycharm

數(shù)據(jù)存儲(chǔ):mysql

爬蟲(chóng)結(jié)構(gòu):廣度爬蟲(chóng)

爬蟲(chóng)思路:

先獲取需要采集信息的公司:

從數(shù)據(jù)庫(kù)中獲取

獲取字段:etid,etname

將獲取的數(shù)據(jù)存儲(chǔ)的狀態(tài)表中

從狀態(tài)表中獲取數(shù)據(jù),并更新?tīng)顟B(tài)表

拼接初始URL:

將etname和初始url進(jìn)行拼接,獲得初始網(wǎng)址

將初始url放到一個(gè)列表中,獲取HTML的時(shí)候如何出錯(cuò),將出錯(cuò)的url放到另一個(gè)列表中,進(jìn)行循環(huán)獲取

請(qǐng)求解析初始一級(jí)頁(yè)面:

驗(yàn)證查詢的公司是否正確(??)

獲取二級(jí)頁(yè)面url

將二級(jí)url放到一個(gè)列表中,獲取HTML的時(shí)候如何出錯(cuò),將出錯(cuò)的url放到另一個(gè)列表中,進(jìn)行循環(huán)獲取

請(qǐng)求解析二級(jí)頁(yè)面:

獲取的信息待定

將公司的信息存儲(chǔ)到數(shù)據(jù)庫(kù)中:

建表

存儲(chǔ)信息

所建的表:

企業(yè)主要信息: et_host_info

工商信息: et_busi_info

分支機(jī)構(gòu)信息: et_branch_office

軟件著作權(quán)信息: et_container_copyright_info

網(wǎng)站備案信息: et_conrainer_icp_info

對(duì)外投資信息: et_foreign_investment_info

融資信息: et_rongzi_info

股東信息: et_stareholder_info

商標(biāo)信息: et_trademark_info

微信公眾號(hào)信息:et_wechat_list_info

狀態(tài)表: et_name_status

看一下部分的結(jié)果圖:




文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/43471.html

相關(guān)文章

  • 這是一個(gè)爬蟲(chóng)—爬取天眼網(wǎng)站企業(yè)信息

    摘要:爬蟲(chóng)簡(jiǎn)介這是一個(gè)在未登錄的情況下,根據(jù)企業(yè)名稱搜索,爬取企業(yè)頁(yè)面數(shù)據(jù)的采集程序注意這是一個(gè)比較簡(jiǎn)單的爬蟲(chóng),基本上只用到了代理,沒(méi)有用到其他的反反爬技術(shù),不過(guò)由于爬取的數(shù)據(jù)比較多,適合刷解析技能的熟練度,所以高手勿進(jìn)代碼已經(jīng)上傳到上,有用還請(qǐng) 爬蟲(chóng)簡(jiǎn)介 showImg(https://segmentfault.com/img/remote/1460000018233494?w=1088&...

    xeblog 評(píng)論0 收藏0
  • Python 爬蟲(chóng)數(shù)據(jù)寫(xiě)入csv文件中文亂碼解決以及天眼爬蟲(chóng)數(shù)據(jù)寫(xiě)入csv

    摘要:爬蟲(chóng)數(shù)據(jù)寫(xiě)入文件中文亂碼,用在中打開(kāi)文件沒(méi)有問(wèn)題,但是用打開(kāi)卻出現(xiàn)了問(wèn)題,以下為解決方法。 python爬蟲(chóng)數(shù)據(jù)寫(xiě)入csv文件中文亂碼,用’utf-8‘在pycharm中打開(kāi)文件沒(méi)有問(wèn)題,但是用excel打開(kāi)卻出現(xiàn)了問(wèn)題,以下為解決方法。 (最近在練習(xí)爬蟲(chóng),這個(gè)博文是對(duì)自己學(xué)習(xí)的記錄和分享,...

    zone 評(píng)論0 收藏0
  • 首次公開(kāi),整理12年積累博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評(píng)論0 收藏0
  • 1.2-知識(shí)圖譜有什么用?

    摘要:知識(shí)圖譜經(jīng)過(guò)幾年的發(fā)展已經(jīng)得到廣泛的應(yīng)用。例如,某地區(qū)某行業(yè)連續(xù)出現(xiàn)了多筆逾期貸款,通過(guò)對(duì)行業(yè)和客戶的知識(shí)圖譜進(jìn)行分析,可以及時(shí)發(fā)現(xiàn)該地區(qū)相關(guān)行業(yè)存在潛在風(fēng)險(xiǎn)的客戶。 知識(shí)圖譜經(jīng)過(guò)幾年的發(fā)展已經(jīng)得到廣泛的應(yīng)用。當(dāng)知識(shí)圖譜遇上人工智能,更加突顯出了它的優(yōu)勢(shì)和價(jià)值。 最先應(yīng)用于搜索 ![用Google搜索泰姬陵]() 最典型的就是在谷歌搜索引擎里面應(yīng)用。谷歌是在2012年率先提出來(lái)知識(shí)圖...

    bergwhite 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<