摘要:項(xiàng)目簡(jiǎn)介前端站點(diǎn)項(xiàng)目效果預(yù)覽使用實(shí)現(xiàn)磁力鏈接爬蟲磁力鏈接解析成種子信息,保存到數(shù)據(jù)庫(kù),利用實(shí)現(xiàn)中文檢索。搭建磁力鏈接搜索引擎源碼地址后端腳本磁力鏈接獲取磁力鏈接解析入庫(kù)定時(shí)同步源碼地址此項(xiàng)目?jī)H用學(xué)習(xí)交流技術(shù)使用不做商業(yè)用途。
項(xiàng)目簡(jiǎn)介
前端站點(diǎn) 項(xiàng)目效果預(yù)覽 http://findcl.com
使用 nodejs 實(shí)現(xiàn)磁力鏈接爬蟲 磁力鏈接解析成 torrent種子信息,保存到數(shù)據(jù)庫(kù),利用 Elasticsearch 實(shí)現(xiàn)中文檢索。koa2 搭建磁力鏈接搜索引擎
源碼地址 https://github.com/ssstk/findcl
后端腳本 磁力鏈接獲取 磁力鏈接解析 入庫(kù) Mongodb 定時(shí)同步 Elasticsearch
源碼地址 https://github.com/ssstk/mang...
此項(xiàng)目?jī)H用學(xué)習(xí)交流技術(shù)使用 不做商業(yè)用途。
上線2018-06-01 網(wǎng)站正式上線。暫時(shí)想不到什么名字 各位大大可以推薦下哦。域名是 http://findcl.com ,
兩臺(tái) VPS (都是某些云做活動(dòng)買的 配置低)
第一臺(tái)部署了 FindCl 站點(diǎn)本身( koa2、nginx )和單個(gè)節(jié)點(diǎn)的 Elasticsearch
第二臺(tái)部署了磁力鏈接爬蟲 hashinfo 解析 入庫(kù) Mongodb
Mongodb 數(shù)據(jù)庫(kù)在套路云(目前有 300W 數(shù)據(jù)庫(kù),每日新收錄 3W+的數(shù)據(jù))
項(xiàng)目依賴Mongodb
mongoose
Elasticsearch
nginx
koa2
vue
DHT BT 資源爬蟲 磁力鏈接解析 manget2torrent
crontab 定時(shí)執(zhí)行 Mongodb 與 Elasticsearch 的數(shù)據(jù)同步
...
存在的問(wèn)題 manget2torrent依賴的 dhtspider 爬蟲 長(zhǎng)時(shí)間使用一個(gè)端口的時(shí),由于 P2P 網(wǎng)絡(luò)的特性,越來(lái)越多的節(jié)點(diǎn)來(lái)訪問(wèn) 會(huì)導(dǎo)致帶寬跑滿(其主要是活動(dòng)買的云主機(jī) 1M 的),如果活力全開不做閑置 大概穩(wěn)定在 10M 左右。解決方案就是 每次采集 5000 條不重復(fù)的磁力 hashindo 就暫停爬蟲,取解析獲取信息。等小于 1000 條時(shí)候,再隨機(jī)端口開啟服務(wù)。
解析磁力鏈接緩慢且成功率很低, 失敗的大概在 3 成左右且需要好幾秒
其他有其他問(wèn)題請(qǐng)新建issue交流。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19302.html
摘要:閑話不多說(shuō)了,接下來(lái)談?wù)劸W(wǎng)絡(luò)爬蟲吧。根據(jù)中的到指定端口使用擴(kuò)展協(xié)議進(jìn)行數(shù)據(jù)的交換即下載下載成功,解析出種子文件列表信息入庫(kù)。具體實(shí)現(xiàn)請(qǐng)參考我的開源項(xiàng)目代碼如有問(wèn)題,歡迎指正,僅供技術(shù)交流,切勿用作非法商業(yè)用途。 演示地址: https://dodder.cc 三年前,照著 Python 版的 DHT 網(wǎng)絡(luò)爬蟲用 Java 重寫了一遍,當(dāng)時(shí)大學(xué)還未畢業(yè),寫出來(lái)的代碼比較雜亂,數(shù)據(jù)跑到 1...
摘要:本人建立個(gè)群作為去轉(zhuǎn)盤網(wǎng)的官方群,人數(shù)現(xiàn)在也不多,如果有興趣的話來(lái)逛逛吧,多個(gè)粉絲去轉(zhuǎn)盤多一份熱鬧,群號(hào) 之前我在寫百度網(wǎng)盤爬蟲,百度圖片爬蟲的時(shí)候答應(yīng)網(wǎng)友說(shuō),抽時(shí)間要把ok搜搜的的源碼公開,如今是時(shí)候兌現(xiàn)諾言了,下面就是爬蟲的所有代碼,完全,徹底的公開,你會(huì)不會(huì)寫程序都可以使用,不過(guò)請(qǐng)先裝個(gè)linux系統(tǒng),具備公網(wǎng)條件,然后運(yùn)行: python startCrawler.py 有必要...
摘要:后來(lái)在爬取不到讓我一度懷疑人生的時(shí)候巧合下,發(fā)現(xiàn)磁力鏈接有小寫字母,有長(zhǎng)度的,有長(zhǎng)度的。。 原文博客: 羞羞的node爬蟲 前言 學(xué)了一陣子node,除了用 express 寫東西,就沒怎么做過(guò)東西突然就想寫個(gè) 爬蟲 來(lái)玩一玩,而且還是爬一些羞羞的東西 使用模塊 SuperAgent 是個(gè) http 方面的庫(kù),可以發(fā)起 get 或 post 請(qǐng)求。 cheerio 大家可以理解成一個(gè) ...
閱讀 2055·2021-09-30 09:47
閱讀 737·2021-09-22 15:43
閱讀 2016·2019-08-30 15:52
閱讀 2457·2019-08-30 15:52
閱讀 2581·2019-08-30 15:44
閱讀 945·2019-08-30 11:10
閱讀 3398·2019-08-29 16:21
閱讀 3325·2019-08-29 12:19