成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

2017中國大學(xué)排名爬蟲代碼修改

Cruise_Chan / 549人閱讀

摘要:課程的第單元中嵩天老師給出的中國大學(xué)排名爬蟲優(yōu)化代碼如果把中的改為就會(huì)出錯(cuò),原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對(duì)這個(gè)問題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開心。

本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。

課程的第6單元中嵩天老師給出的“中國大學(xué)排名爬蟲”優(yōu)化代碼如果把url中的2016改為2017就會(huì)出錯(cuò),原因:2016年各校排名數(shù)字的html格式為1,而2017年各校排名數(shù)字的html格式為1,針對(duì)這個(gè)問題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開心。代碼如下:

import requests, bs4, re
from bs4 import BeautifulSoup


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find("tbody").children:
        if isinstance(tr, bs4.element.Tag):
            yield tr   #用到了生成器

def peidui(ulist, html):
    xlt = re.findall(r"d{1,4}?",html)  #用到了最小匹配
    for tr,i in zip(fillUnivList(uinfo, html), xlt): #一次循環(huán)2個(gè)變量用到了zip
        tds = tr("td")
        ulist.append([i.replace("",""), tds[1].string, tds[3].string])

def printUnivList(ulist, num):
    tplt = "{0:^10}	{1:{3}^10}	{2:^10}"
    print(tplt.format("排名","學(xué)校名稱","總分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))
    
def main():
    uinfo = []
    url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html"
    html = getHTMLText(url)
    peidui(uinfo, html)
    printUnivList(uinfo, 20) 
main()

運(yùn)行結(jié)果如下:

排名來自最好大學(xué)網(wǎng),只是作為爬蟲練習(xí)使用,覺得排名不合適的網(wǎng)友勿噴。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/51658.html

相關(guān)文章

  • 2017中國大學(xué)排名爬蟲代碼修改

    摘要:課程的第單元中嵩天老師給出的中國大學(xué)排名爬蟲優(yōu)化代碼如果把中的改為就會(huì)出錯(cuò),原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對(duì)這個(gè)問題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開心。 本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。 課程的第6單元中嵩天老師給出的中國大學(xué)排名爬蟲優(yōu)化代碼如果把url中的2...

    figofuture 評(píng)論0 收藏0
  • Java爬蟲之爬取中國高校排名前100名并存入MongoDB中

    摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學(xué)排名表格爬取出來,并存入到中。本次分享將用的來實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來,并存入到My...

    jzzlee 評(píng)論0 收藏0
  • Java爬蟲之爬取中國高校排名前100名并存入MongoDB中

    摘要:介紹在博客爬蟲爬取中國高校排名前名并寫入中,我們利用來寫爬蟲,將中的大學(xué)排名表格爬取出來,并存入到中。本次分享將用的來實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫中。 介紹 ??在博客:Python爬蟲——爬取中國高校排名前100名并寫入MySQL中,我們利用Python來寫爬蟲,將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來,并存入到My...

    GeekQiaQia 評(píng)論0 收藏0
  • 中國公有云廠商2018年收入利潤綜合排名詳細(xì)解讀

    摘要:可見,實(shí)際公布的中國公有云供應(yīng)商年收入利潤排名榜單是按照綜合業(yè)務(wù)收入來計(jì)算,并非只是純粹的公有云業(yè)務(wù)。數(shù)據(jù)顯示,年至年中國公有云市場(chǎng)年均復(fù)合增長率將達(dá)。這些中國公有云廠商名單,據(jù)阿明不完全統(tǒng)計(jì),總計(jì)為家。他們說:看過排名更懂云了……做這個(gè)排名之前,首先需要說明一下這次估算和統(tǒng)計(jì)的公有云供應(yīng)商的業(yè)務(wù)范圍,包括了這些云供應(yīng)商的公有云、CDN、IDC、私有云、混合云、與云相關(guān)的集成項(xiàng)目,共計(jì)六項(xiàng)主...

    Guakin_Huang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<