摘要:課程的第單元中嵩天老師給出的中國大學(xué)排名爬蟲優(yōu)化代碼如果把中的改為就會出錯,原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對這個問題,我對嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開心。
本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。
課程的第6單元中嵩天老師給出的“中國大學(xué)排名爬蟲”優(yōu)化代碼如果把url中的2016改為2017就會出錯,原因:2016年各校排名數(shù)字的html格式為
import requests, bs4, re from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tr in soup.find("tbody").children: if isinstance(tr, bs4.element.Tag): yield tr #用到了生成器 def peidui(ulist, html): xlt = re.findall(r"d{1,4}? ",html) #用到了最小匹配 for tr,i in zip(fillUnivList(uinfo, html), xlt): #一次循環(huán)2個變量用到了zip tds = tr("td") ulist.append([i.replace(" ",""), tds[1].string, tds[3].string]) def printUnivList(ulist, num): tplt = "{0:^10} {1:{3}^10} {2:^10}" print(tplt.format("排名","學(xué)校名稱","總分",chr(12288))) for i in range(num): u=ulist[i] print(tplt.format(u[0],u[1],u[2],chr(12288))) def main(): uinfo = [] url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html" html = getHTMLText(url) peidui(uinfo, html) printUnivList(uinfo, 20) main() 運(yùn)行結(jié)果如下:
排名來自最好大學(xué)網(wǎng),只是作為爬蟲練習(xí)使用,覺得排名不合適的網(wǎng)友勿噴。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41127.html
相關(guān)文章
2017中國大學(xué)排名爬蟲代碼修改
摘要:課程的第單元中嵩天老師給出的中國大學(xué)排名爬蟲優(yōu)化代碼如果把中的改為就會出錯,原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對這個問題,我對嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開心。 本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。 課程的第6單元中嵩天老師給出的中國大學(xué)排名爬蟲優(yōu)化代碼如果把url中的2...
Java爬蟲之爬取中國高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學(xué)排名表格爬取出來,并存入到中。本次分享將用的來實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來,并存入到My...
Java爬蟲之爬取中國高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學(xué)排名表格爬取出來,并存入到中。本次分享將用的來實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來,并存入到My...
中國公有云廠商2018年收入利潤綜合排名詳細(xì)解讀
摘要:可見,實(shí)際公布的中國公有云供應(yīng)商年收入利潤排名榜單是按照綜合業(yè)務(wù)收入來計算,并非只是純粹的公有云業(yè)務(wù)。數(shù)據(jù)顯示,年至年中國公有云市場年均復(fù)合增長率將達(dá)。這些中國公有云廠商名單,據(jù)阿明不完全統(tǒng)計,總計為家。他們說:看過排名更懂云了……做這個排名之前,首先需要說明一下這次估算和統(tǒng)計的公有云供應(yīng)商的業(yè)務(wù)范圍,包括了這些云供應(yīng)商的公有云、CDN、IDC、私有云、混合云、與云相關(guān)的集成項(xiàng)目,共計六項(xiàng)主...
發(fā)表評論
0條評論
figofuture
男|高級講師
TA的文章
閱讀更多
國內(nèi)云主機(jī)為什么那么貴?主要從4個方面來決定!
閱讀 2581·2021-11-22 13:53
寶塔面板搭建uptime-kuma – 自建一個TCP/HTTP網(wǎng)站監(jiān)控程序
閱讀 4091·2021-09-28 09:47
商城用什么主機(jī)-買什么游戲主機(jī)好?
閱讀 877·2021-09-22 15:33
UCloud快杰云主機(jī) 提升糖豆App運(yùn)營與質(zhì)量實(shí)戰(zhàn)
閱讀 824·2020-12-03 17:17
CSS結(jié)構(gòu)與布局
閱讀 3322·2019-08-30 13:13
前端每日實(shí)戰(zhàn):90# 視頻演示如何用 CSS 和 D3 創(chuàng)作一個無盡的六邊形空間
閱讀 2129·2019-08-29 16:09
VUE,關(guān)于導(dǎo)航列表樣式切換(VUE Router:router-link-active)
閱讀 1184·2019-08-29 12:24
CSS實(shí)現(xiàn)元素水平居中
閱讀 2456·2019-08-28 18:14
閱讀需要支付1元查看