使用python爬蟲實現(xiàn)子域名探測問題

89542767 發(fā)布于2022-11-05 15:29 / 520人閱讀

　　大家都知道，在python當中，需要面對是各種各樣的問題，比如我們需要用到的是：使用python爬蟲實現(xiàn)子域名探測，這種技能是值得我們?nèi)ミM行學習的，但是學習的話，內(nèi)容還是比較多的，下面就具體的內(nèi)容，給大家做出一個詳細解答。

　　前言

　　意義：子域名枚舉是為一個或多個域查找子域的過程，它是信息收集階段的重要組成部分。

　　實現(xiàn)方法：使用爬蟲與字典爆破。

　　一、爬蟲

　　1.ip138

　　def search_2(domain):
　　res_list=[]
　　headers={
　　'Accept':'*/*',
　　'Accept-Language':'en-US,en;q=0.8',
　　'Cache-Control':'max-age=0',
　　'User-Agent':'Mozilla/5.0(X11;Linux x86_64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/48.0.2564.116 Safari/537.36',
　　'Connection':'keep-alive',
　　'Referer':'http://www.baidu.com/'
　　}
　　results=requests.get('https://site.ip138.com/'+domain+'/domain.htm',headers=headers)
　　soup=BeautifulSoup(results.content,'html.parser')
　　job_bt=soup.findAll('p')
　　try:
　　for i in job_bt:
　　link=i.a.get('href')
　　linkk=link[1:-1]
　　res_list.append(linkk)
　　print(linkk)
　　except:
　　pass
　　print(res_list[:-1])
　　if __name__=='__main__':
　　search_2("jd.com")

　　返回結(jié)果：

　　2.bing

　　def search_1(site):
　　Subdomain=[]
　　headers={
　　'Accept':'*/*',
　　'Accept-Language':'en-US,en;q=0.8',
　　'Cache-Control':'max-age=0',
　　'User-Agent':'Mozilla/5.0(X11;Linux x86_64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/48.0.2564.116 Safari/537.36',
　　'Connection':'keep-alive',
　　'Referer':'http://www.baidu.com/'
　　}
　　for i in range(1,16):
　　url="https://cn.bing.com/search?q=site%3A"+site+"&go=Search&qs=ds&first="+str(
　　(int(i)-1)*10)+"&FORM=PERE"
　　#conn=requests.session()
　　#conn.get('http://cn.bing.com',headers=headers)
　　#html=conn.get(url,stream=True,headers=headers)
　　html=requests.get(url,stream=True,headers=headers)
　　soup=BeautifulSoup(html.content,'html.parser')
　　#print(soup)
　　job_bt=soup.findAll('h2')
　　for i in job_bt:
　　link=i.a.get('href')
　　print(link)
　　if link in Subdomain:
　　pass
　　else:
　　Subdomain.append(link)
　　print(Subdomain)
　　if __name__=='__main__':
　　search_1("jd.com")

　　返回結(jié)果：

　　二、通過字典進行子域名爆破

　　def dict(url):
　　for dict in open('dic.txt'):#這里用到子域名字典文件dic.txt
　　dict=dict.replace('\n',"")
　　zym_url=dict+"."+url
　　try:
　　ip=socket.gethostbyname(zym_url)
　　print(zym_url+"--&gt;"+ip)
　　time.sleep(0.1)
　　except Exception as e:
　　#print(zym_url+"--&gt;"+ip+"--error")
　　time.sleep(0.1)
　　if __name__=='__main__':
　　dict("jd.com")

　　返回結(jié)果：

　　三、python爬蟲操作步驟

　　1.寫出請求頭headers與目標網(wǎng)站url

　　headers={
　　'User-Agent':"Mozilla/5.0(Windows NT 10.0)AppleWebKit/537.36(KHTML,like Gecko)Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240"
　　}
　　url="https://site.ip138.com/"

　　2.生成請求

　　get：res=requests.get(url+domain,headers=headers)
　　post：res=requests.post(url+domain,headers=headers,data=data)

　　3.抓取數(shù)據(jù)

　soup=BeautifulSoup(res.content,'html.parser')#以html解析器解析res的內(nèi)容

　　此時print(soup)，返回結(jié)果：

　　4.分析源碼，截取標簽中內(nèi)容

　　1.通過分析源碼，確定需要提取p標簽中的內(nèi)容：

　　job_bt=soup.findAll('p')

　　此時print(job_bt)，返回結(jié)果：

　　2.繼續(xù)提取a標簽內(nèi)屬性為href的值：

　　try:
　　for i in job_bt:
　　link=i.a.get('href')
　　linkk=link[1:-1]
　　res_list.append(linkk)
　　print(linkk)
　　except:
　　pass

　　得結(jié)果：

　　3.再進行截取：

　　res_list[:-1]

　　得結(jié)果：

　　四、爬蟲一些總結(jié)

　　1.抓取數(shù)據(jù)，生成soup

　　soup=BeautifulSoup(res.content,'html.parser')#以html解析器解析res的內(nèi)容

　　2.從文檔中獲取所有文字內(nèi)容

　print(soup.get_text())

　　3.從文檔中找到所有<a>標簽的鏈接

　　for link in soup.find_all('a'):
　　print(link.get('href'))

　　綜上所述，這篇文章就給大家介紹到這里了，希望可以給大家?guī)砀嗟膸椭?/p>

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/128252.html

發(fā)表評論

登陸后可評論

0條評論

89542767

男|高級講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時間格式與結(jié)構(gòu)型時長詳細說明

閱讀 923·2023-01-14 11:38
OpenMV與JSON編碼問題分析

閱讀 895·2023-01-14 11:04
python中的特性管理模式詳細說明

閱讀 756·2023-01-14 10:48
Python運用fastapi完成上傳圖片

閱讀 2055·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 961·2023-01-14 10:24
Python根據(jù)ssh遠程桌面連接Mysql數(shù)據(jù)庫操作

閱讀 840·2023-01-14 10:18
本文輕輕松松掌握Python中類的繼承

閱讀 510·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 588·2023-01-14 10:02

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用python爬蟲實現(xiàn)子域名探測問題

相關(guān)文章

一名爬蟲工程師的運維入門之路：dnspython學習筆記

Evil Python

Python-爬蟲工程師-面試總結(jié)

發(fā)表評論

0條評論

89542767

男|高級講師

TA的文章

pythontime控制模塊時間格式與結(jié)構(gòu)型時長詳細說明

OpenMV與JSON編碼問題分析

python中的特性管理模式詳細說明

Python運用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠程桌面連接Mysql數(shù)據(jù)庫操作

本文輕輕松松掌握Python中類的繼承

python中wordcloud組裝方式總結(jié)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用python爬蟲實現(xiàn)子域名探測問題

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！