我不知道現(xiàn)在有多少人在用網(wǎng)盤搜索引擎,但就去轉(zhuǎn)盤網(wǎng)來(lái)說(shuō)本人傾注了很多的心血,現(xiàn)在使用的人數(shù)也還可以,網(wǎng)盤資源都有個(gè)通病,那就是資源可能失效,但很多引擎都沒(méi)有做失效判斷,尤其是一些google自定義的引擎,技術(shù)含量不高,站長(zhǎng)也就花心思賺錢,很少考慮用戶體驗(yàn)。這篇文章是本人又一篇技術(shù)公開博客,之前本人已經(jīng)公開了去轉(zhuǎn)盤
網(wǎng)的幾乎所有的技術(shù)細(xì)節(jié),這一篇繼續(xù)補(bǔ)充:
首先做個(gè)回顧:百度網(wǎng)盤爬蟲 java分詞算法 數(shù)據(jù)庫(kù)自動(dòng)備份 代理服務(wù)器爬取 邀請(qǐng)好友注冊(cè)
ing:utf-8 """ @author:haoning @create time:2015.8.5 """ from __future__ import division # 精確除法 from Queue import Queue from __builtin__ import False from _sqlite3 import SQLITE_ALTER_TABLE from collections import OrderedDict import copy import datetime import json import math import os import random import platform import re import threading, errno, datetime import time import urllib2 import MySQLdb as mdb DB_HOST = "127.0.0.1" DB_USER = "root" DB_PASS = "root" def gethtml(url): try: print "url",url req = urllib2.Request(url) response = urllib2.urlopen(req,None,8) #在這里應(yīng)該加入代理 html = response.read() return html except Exception,e: print "e",e if __name__ == "__main__": while 1: #url="http://pan.baidu.com/share/link?uk=1813251526&shareid=540167442" url="http://pan.baidu.com/s/1qXQD2Pm" html=gethtml(url) print html
結(jié)果:e HTTP Error 403: Forbidden,這就是說(shuō),度娘他是反爬蟲的,之后看了很多網(wǎng)站,一不小心試了下面的鏈接:
http://pan.baidu.com/share/li...
if __name__ == "__main__": while 1: url="http://pan.baidu.com/share/link?uk=1813251526&shareid=540167442" #url="http://pan.baidu.com/s/1qXQD2Pm" html=gethtml(url) print html
結(jié)果:
其實(shí)百度網(wǎng)盤的資源入口有兩種方式:
一種是:http://pan.baidu.com/s/1qXQD2Pm,最后為短碼。
另一種是:http://pan.baidu.com/share/li...,關(guān)鍵是shareId+uk 前者已知道反爬蟲,后者目前沒(méi)有,所以用python測(cè)試后,本人又將代碼翻譯成了java,因?yàn)槿マD(zhuǎn)盤是用java寫的,直接上代碼:
package com.tray.common.utils; import static org.junit.Assert.*; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.MalformedURLException; import java.net.URL; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Properties; import java.util.Random; import java.util.Set; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; import org.junit.Test; /** * 資源校驗(yàn)工具 * * @author hui * */ public class ResourceCheckUtil { private static Maprules; static { loadRule(); } /** * 加載規(guī)則庫(kù) */ public static void loadRule() { try { InputStream in = ResourceCheckUtil.class.getClassLoader() .getResourceAsStream("rule.properties"); Properties p = new Properties(); p.load(in); Set
注意代碼本生要用來(lái)兼容360,微盤等網(wǎng)盤的,但有些網(wǎng)盤倒了,大家都知道,不過(guò)代碼還是得在,這才是程序猿該有的思路,那就是可寬展,注意代碼有個(gè)配置文件,我也附上吧:
360=class|contain|u5206u4EABu8005u5DF2u53D6u6D88u6B64u5206u4EAB
baidu=title|contain|u94FEu63A5u4E0Du5B58u5728
weiyun=|contain|u5206u4EABu8D44u6E90u5DF2u7ECFu5220u9664
leshi=title|ed|u63D0u53D6u6587u4EF6
sorry,unicode編碼,麻煩你自己轉(zhuǎn)下碼吧,不會(huì)請(qǐng)百度:unicode轉(zhuǎn)碼工具
到此,去轉(zhuǎn)盤網(wǎng)鏈接是否失效的驗(yàn)證,代碼我已經(jīng)完全公開,喜歡這篇博客的孩子請(qǐng)收藏并關(guān)注下。
本人建個(gè)qq群,歡迎大家一起交流技術(shù), 群號(hào):512245829 喜歡微博的朋友關(guān)注:轉(zhuǎn)盤娛樂(lè)即可
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/38134.html
我不知道現(xiàn)在有多少人在用網(wǎng)盤搜索引擎,但就去轉(zhuǎn)盤網(wǎng)來(lái)說(shuō)本人傾注了很多的心血,現(xiàn)在使用的人數(shù)也還可以,網(wǎng)盤資源都有個(gè)通病,那就是資源可能失效,但很多引擎都沒(méi)有做失效判斷,尤其是一些google自定義的引擎,技術(shù)含量不高,站長(zhǎng)也就花心思賺錢,很少考慮用戶體驗(yàn)。這篇文章是本人又一篇技術(shù)公開博客,之前本人已經(jīng)公開了去轉(zhuǎn)盤 網(wǎng)的幾乎所有的技術(shù)細(xì)節(jié),這一篇繼續(xù)補(bǔ)充: 首先做個(gè)回顧:百度網(wǎng)盤爬蟲 java分詞...
摘要:為了提高自己,最近在學(xué)習(xí)微信小程序,選題是仿網(wǎng)易云音樂(lè)。查文檔發(fā)現(xiàn),小程序中圖片加載完成后,有一個(gè)加載完成事件。前者在微信客戶端版本就不開始維護(hù)了,后者低版本需做兼容處理。目前還有一些功能暫未實(shí)現(xiàn),會(huì)在以后繼續(xù)完善項(xiàng)目,繼續(xù)學(xué)習(xí)。 為了提高自己,最近在學(xué)習(xí)微信小程序,選題是仿網(wǎng)易云音樂(lè)。期間踩過(guò)了大把的坑,bug出現(xiàn)的難受和解決bug歡喜,一直是伴隨我階段性學(xué)習(xí)這個(gè)項(xiàng)目的心情。初步完成...
摘要:資源獲取方式根據(jù)下面的索引,大家可以選擇自己需要的資源,然后在松哥公眾號(hào)牧碼小子后臺(tái)回復(fù)對(duì)應(yīng)的口令,就可以獲取到資源的百度云盤下載地址。公眾號(hào)二維碼如下另外本文會(huì)定期更新,松哥有新資源的時(shí)候會(huì)及時(shí)分享給大家,歡迎各位小伙伴保持關(guān)注。 沒(méi)有一條路是容易的,特別是轉(zhuǎn)行計(jì)算機(jī)這條路。 松哥接觸過(guò)很多轉(zhuǎn)行做開發(fā)的小伙伴,我了解到很多轉(zhuǎn)行人的不容易,記得松哥大二時(shí)剛剛決定轉(zhuǎn)行計(jì)算機(jī),完全不知道這...
摘要:第一步如何以最低價(jià)格快速買到阿里云服務(wù)器如果我是學(xué)生,我如何通過(guò)買到價(jià)值的服務(wù)答用購(gòu)買云服務(wù)器是阿里云學(xué)生專屬活動(dòng)。除阿里云外,大多數(shù)云服務(wù)器公司例如西部等同配置云服務(wù)器的價(jià)格都在左右。例如云服務(wù)器地址等。第一步:如何以最低價(jià)格快速買到阿里云服務(wù)器?1.1 如果我是學(xué)生,我如何通過(guò)¥9.9買到價(jià)值¥117的服務(wù)?答:用¥9.9購(gòu)買云服務(wù)器ECS是阿里云學(xué)生專屬活動(dòng)。首先,你需要在阿里云官網(wǎng)注...
摘要:首先,你需要在阿里云官網(wǎng)注冊(cè)賬號(hào)。然后在阿里云官網(wǎng)首頁(yè)點(diǎn)擊校園扶持,經(jīng)學(xué)生認(rèn)證后便可購(gòu)買每月的特價(jià)云服務(wù)器。圖幕布拍照如果對(duì)備案還有疑問(wèn),請(qǐng)參考阿里云官方文檔首次備案圖文引導(dǎo)。具體操作方式請(qǐng)看阿里云官方介紹鏡像部署或一鍵安裝包部署。第一步:如何以最低價(jià)格快速買到阿里云服務(wù)器?1.1 如果我是學(xué)生,我如何通過(guò)¥9.9買到價(jià)值¥117的服務(wù)? 答:用¥9.9購(gòu)買云服務(wù)器ECS是阿里云學(xué)生專屬活動(dòng)...
閱讀 3255·2021-11-18 10:02
閱讀 1960·2021-09-22 10:54
閱讀 2997·2019-08-30 15:43
閱讀 2588·2019-08-30 13:22
閱讀 1586·2019-08-29 13:57
閱讀 1055·2019-08-29 13:27
閱讀 746·2019-08-26 14:05
閱讀 2532·2019-08-26 13:30