摘要:課程的第單元中嵩天老師給出的中國大學(xué)排名爬蟲優(yōu)化代碼如果把中的改為就會(huì)出錯(cuò),原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對(duì)這個(gè)問題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開心。
本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。
課程的第6單元中嵩天老師給出的“中國大學(xué)排名爬蟲”優(yōu)化代碼如果把url中的2016改為2017就會(huì)出錯(cuò),原因:2016年各校排名數(shù)字的html格式為
import requests, bs4, re from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tr in soup.find("tbody").children: if isinstance(tr, bs4.element.Tag): yield tr #用到了生成器 def peidui(ulist, html): xlt = re.findall(r"d{1,4}? ",html) #用到了最小匹配 for tr,i in zip(fillUnivList(uinfo, html), xlt): #一次循環(huán)2個(gè)變量用到了zip tds = tr("td") ulist.append([i.replace(" ",""), tds[1].string, tds[3].string]) def printUnivList(ulist, num): tplt = "{0:^10} {1:{3}^10} {2:^10}" print(tplt.format("排名","學(xué)校名稱","總分",chr(12288))) for i in range(num): u=ulist[i] print(tplt.format(u[0],u[1],u[2],chr(12288))) def main(): uinfo = [] url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html" html = getHTMLText(url) peidui(uinfo, html) printUnivList(uinfo, 20) main() 運(yùn)行結(jié)果如下:
排名來自最好大學(xué)網(wǎng),只是作為爬蟲練習(xí)使用,覺得排名不合適的網(wǎng)友勿噴。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/51658.html
相關(guān)文章
2017中國大學(xué)排名爬蟲代碼修改
摘要:課程的第單元中嵩天老師給出的中國大學(xué)排名爬蟲優(yōu)化代碼如果把中的改為就會(huì)出錯(cuò),原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對(duì)這個(gè)問題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開心。 本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。 課程的第6單元中嵩天老師給出的中國大學(xué)排名爬蟲優(yōu)化代碼如果把url中的2...
Java爬蟲之爬取中國高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學(xué)排名表格爬取出來,并存入到中。本次分享將用的來實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來,并存入到My...
Java爬蟲之爬取中國高校排名前100名并存入MongoDB中
摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學(xué)排名表格爬取出來,并存入到中。本次分享將用的來實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來,并存入到My...
中國公有云廠商2018年收入利潤綜合排名詳細(xì)解讀
摘要:可見,實(shí)際公布的中國公有云供應(yīng)商年收入利潤排名榜單是按照綜合業(yè)務(wù)收入來計(jì)算,并非只是純粹的公有云業(yè)務(wù)。數(shù)據(jù)顯示,年至年中國公有云市場(chǎng)年均復(fù)合增長率將達(dá)。這些中國公有云廠商名單,據(jù)阿明不完全統(tǒng)計(jì),總計(jì)為家。他們說:看過排名更懂云了……做這個(gè)排名之前,首先需要說明一下這次估算和統(tǒng)計(jì)的公有云供應(yīng)商的業(yè)務(wù)范圍,包括了這些云供應(yīng)商的公有云、CDN、IDC、私有云、混合云、與云相關(guān)的集成項(xiàng)目,共計(jì)六項(xiàng)主...
發(fā)表評(píng)論
0條評(píng)論
Cruise_Chan
男|高級(jí)講師
TA的文章
閱讀更多
如何選擇云虛擬主機(jī)-該怎么選擇合適自己的云虛擬主機(jī)?
閱讀 1162·2021-09-22 15:43
華為如何上傳文件到windows云主機(jī)-云主機(jī)怎么上傳程序呢?
閱讀 2358·2021-09-22 15:32
主機(jī)指的是什么-通常所說的主機(jī)是指什么?
閱讀 4530·2021-09-22 15:11
CSS居中總結(jié)大全
閱讀 2227·2019-08-30 15:55
CSS+DIV自適應(yīng)布局
閱讀 2598·2019-08-30 15:54
浮動(dòng)定位之三列布局問題與發(fā)現(xiàn)(下)
閱讀 995·2019-08-30 15:44
前端面試總結(jié)——持續(xù)更新
閱讀 1107·2019-08-29 13:26
CSS 公共樣式分享
閱讀 803·2019-08-29 12:54
閱讀需要支付1元查看