摘要:目前最新版是版本,在爬取只支持的站點(diǎn)會(huì)報(bào)錯(cuò)目前作者說(shuō)會(huì)在版本發(fā)布修復(fù)錯(cuò)誤,目前的解決辦法是臨時(shí)適配方式,修改中的方法,重寫自己實(shí)現(xiàn)的,并設(shè)置到中。
目前webmagic最新版是0.7.3版本,在爬取只支持TLS1.2的https站點(diǎn)會(huì)報(bào)錯(cuò)
javax.net.ssl.SSLException: Received fatal alert: protocol_version at sun.security.ssl.Alerts.getSSLException(Alerts.java:208) at sun.security.ssl.Alerts.getSSLException(Alerts.java:154) at sun.security.ssl.SSLSocketImpl.recvAlert(SSLSocketImpl.java:2023) at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:1125) at sun.security.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1375) at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1403) at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1387) at org.apache.http.conn.ssl.SSLConnectionSocketFactory.createLayeredSocket(SSLConnectionSocketFactory.java:394) at org.apache.http.conn.ssl.SSLConnectionSocketFactory.connectSocket(SSLConnectionSocketFactory.java:353) at org.apache.http.impl.conn.DefaultHttpClientConnectionOperator.connect(DefaultHttpClientConnectionOperator.java:141) at org.apache.http.impl.conn.PoolingHttpClientConnectionManager.connect(PoolingHttpClientConnectionManager.java:353) at org.apache.http.impl.execchain.MainClientExec.establishRoute(MainClientExec.java:380) at org.apache.http.impl.execchain.MainClientExec.execute(MainClientExec.java:236) at org.apache.http.impl.execchain.ProtocolExec.execute(ProtocolExec.java:184) at org.apache.http.impl.execchain.RetryExec.execute(RetryExec.java:88) at org.apache.http.impl.execchain.RedirectExec.execute(RedirectExec.java:110) at org.apache.http.impl.client.InternalHttpClient.doExecute(InternalHttpClient.java:184) at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:82) at us.codecraft.webmagic.downloader.HttpClientDownloader.download(HttpClientDownloader.java:85)
目前作者說(shuō)會(huì)在0.7.4版本發(fā)布修復(fù)錯(cuò)誤,目前的解決辦法是:
臨時(shí)適配方式,修改HttpClientGenerator中的buildSSLConnectionSocketFactory方法,
return new SSLConnectionSocketFactory(createIgnoreVerifySSL(), new String[]{"SSLv3", "TLSv1", "TLSv1.1", "TLSv1.2"}, null, new DefaultHostnameVerifier())
重寫自己實(shí)現(xiàn)的HttpClientDownloader,并設(shè)置到Spider中。
作者原文:Https下無(wú)法抓取只支持TLS1.2的站點(diǎn)
我已經(jīng)把源碼重新編譯打包了,如果自己懶得編譯可以用我打包好的這個(gè):webmagic-core-0.7.3.jar
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/68958.html
摘要:但發(fā)現(xiàn)導(dǎo)出來(lái)的沒(méi)有高亮語(yǔ)法沒(méi)有語(yǔ)法高亮咋看啊,所以到這里我就放棄了,將就用一下博客園生成的吧爬蟲學(xué)習(xí)上面提供的接口是一個(gè)生成一個(gè)文件,我是不可能一個(gè)一個(gè)將鏈接和標(biāo)題放上去生成的因?yàn)椴┛蛨@上發(fā)的也將近篇了。 前言 只有光頭才能變強(qiáng) 之前有讀者問(wèn)過(guò)我:3y你的博客有沒(méi)有電子版的呀?我想要份電子版的。我說(shuō):沒(méi)有啊,我沒(méi)有弄過(guò)電子版的,我這邊有個(gè)文章導(dǎo)航頁(yè)面,你可以去文章導(dǎo)航去找來(lái)看呀..然后...
摘要:是爬蟲框架中比較簡(jiǎn)單易上手的一個(gè)。官網(wǎng)鏈接下面的例子是使用這個(gè)框架來(lái)爬取工商銀行的私人理財(cái)推薦分頁(yè)列表數(shù)據(jù)。頁(yè)面鏈接為引入配置如果項(xiàng)目已經(jīng)引入記錄日志,則需要在中排除。 webmagic是java爬蟲框架中比較簡(jiǎn)單易上手的一個(gè)。官網(wǎng)鏈接:http://webmagic.io/ 下面的例子是使用這個(gè)框架來(lái)爬取工商銀行的私人理財(cái)推薦分頁(yè)列表數(shù)據(jù)。頁(yè)面鏈接為:https://mybank.i...
摘要:優(yōu)雅的使用框架,爬取唐詩(shī)別苑網(wǎng)的詩(shī)人詩(shī)歌數(shù)據(jù)同時(shí)在幾種動(dòng)態(tài)加載技術(shù)中對(duì)比作選擇雖然差不多兩年沒(méi)有維護(hù),但其本身是一個(gè)優(yōu)秀的爬蟲框架的實(shí)現(xiàn),源碼中有很多值得參考的地方,特別是對(duì)爬蟲多線程的控制。 優(yōu)雅的使用WebMagic框架,爬取唐詩(shī)別苑網(wǎng)的詩(shī)人詩(shī)歌數(shù)據(jù) 同時(shí)在幾種動(dòng)態(tài)加載技術(shù)(HtmlUnit、PhantomJS、Selenium、JavaScriptEngine)中對(duì)比作選擇 We...
前言 最近無(wú)意間在知乎專欄看到有人使用python爬取了mm131的圖片。想著自己也有過(guò)爬蟲的開(kāi)發(fā)經(jīng)驗(yàn)(抱著學(xué)習(xí)的態(tài)度),故使用java也來(lái)寫個(gè)小爬蟲,爬蟲框架用的是webmagic,傳送門:https://github.com/code4craft/webmagic 實(shí)現(xiàn) 整個(gè)爬蟲項(xiàng)目如下圖,極其精簡(jiǎn),其中主要實(shí)現(xiàn)類是Mm131Spider showImg(http://pc3dvrbm9...
摘要:最后放效果圖感興趣的同學(xué)歡迎掃碼體驗(yàn)喲手機(jī)長(zhǎng)按不能進(jìn)入小程序,需要在微信發(fā)現(xiàn)小程序搜索式神獵手進(jìn)入結(jié)尾以上所有內(nèi)容均已開(kāi)源,歡迎大家參考后端式神獵手后端小程序端式神獵手小程序解決方案原文地址作者 0.序 玩陰陽(yáng)師的肝帝們都知道,每天早上5點(diǎn)和下午6點(diǎn)會(huì)刷新兩次封印任務(wù),每次做任務(wù)時(shí)最蛋疼的就是找各種怪物對(duì)應(yīng)的副本以及神秘線索。 陰陽(yáng)師提供了 網(wǎng)易精靈 可以進(jìn)行一些數(shù)據(jù)查詢,但體驗(yàn)實(shí)在太...
閱讀 1027·2021-11-22 13:52
閱讀 941·2019-08-30 15:44
閱讀 582·2019-08-30 15:43
閱讀 2437·2019-08-30 12:52
閱讀 3486·2019-08-29 16:16
閱讀 648·2019-08-29 13:05
閱讀 2953·2019-08-26 18:36
閱讀 2007·2019-08-26 13:46