成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

每日 30 秒 ? 漫游器法則

Render / 2922人閱讀

簡介
SEO、robot.txt、搜索引擎優(yōu)化

在浩海的互聯(lián)網(wǎng)世界中:

互聯(lián)網(wǎng) 宛如 宇宙

站點 宛如 星系

網(wǎng)頁 宛如 星球

網(wǎng)頁內(nèi)容 宛如 生靈萬物

而在互聯(lián)網(wǎng)世界漫游的搜索引擎爬蟲小蜘蛛,就好比一搜穿梭在宇宙里的星際漫游器,想想是不是還挺浪漫的。對于不同的星系有著自己的規(guī)則,如果不準(zhǔn)守規(guī)則,小心自動防御功能把 漫游器 打壞哦~

小二幻想過這個世界如果是由代碼組成的,還是挺有意思的,很多靈異事件都可以解釋為 bug,有次和同學(xué)腦洞大開聊了一晚上,有機會可以找個時間來構(gòu)筑一個代碼 世界觀。
漫游器法則

每個星系的入口處即網(wǎng)站根目錄都會設(shè)置一個 robot.txt 又叫做漫游器法則,記錄漫游器應(yīng)該準(zhǔn)守的規(guī)則。漫游器法則 更多的是一個協(xié)定,并不是寫了所有的爬蟲都會準(zhǔn)守這個規(guī)則。

很多公司或者個人在沒有內(nèi)容輸出時,往往會通過 爬蟲 去爬取別人站點的數(shù)據(jù),如果準(zhǔn)守規(guī)則也可以叫其 漫游器,但是不準(zhǔn)守規(guī)則肆無忌憚爬取的稱之為 海盜船。被爬取的站點,對于這些 海盜船 會做出一定的判斷,或者訪問評率限制來保護自己。

名單法則

robot.txt 中通過 User-agent 來規(guī)定那些 漫游器 應(yīng)該準(zhǔn)守哪些規(guī)則,使用 * 星號表示允許所有 漫游器 都應(yīng)該準(zhǔn)守例如User-agent: *。也可以對特定的漫游器做出限制,例如對 百度漫游器 做出限制 User-agent: Baiduspider。在名單法則之下是與之對應(yīng)的 允許法則拒接法則

允許法則通過 Allow: 配合路徑法則來告訴 漫游器 哪些鏈接是應(yīng)該爬取訪問的。

拒接法則通過 Disallow: 配合路徑法則來告訴 漫游器 哪些鏈接是不應(yīng)該爬取訪問的。

路徑法則

pathname 組成 query 的路徑,配合上 *$ 符號可以拼湊出一條網(wǎng)站路徑規(guī)則。下面給出幾個例子:

用戶列表 https://pushme.top/users 用路徑表達(dá) /users

文章評論 https://pushme.top/posts/1/comments 用路徑表達(dá) /posts/*/comments

樣式文件 https://pushme.top/assets/styles/main.css 用路徑表達(dá) /assets/styles/*.css$

更多 URL 詳細(xì)內(nèi)容可以查看 URL 大爆炸
星系推薦法則

在 投懷送抱 中介紹了 sitemap 網(wǎng)頁地圖,用于告訴漫游器哪些網(wǎng)站哪些頁面值得訪問。通過 Sitemap: 來指定 Sitemap: https://pushme.top/sitemap.xml。

單雙號法則

網(wǎng)站和現(xiàn)實生活一樣也有分 單雙號,漫游器海盜船 爬取頁面也會占用到服務(wù)器的資源。如果占用太多資源會導(dǎo)致 正常用戶 無法訪問網(wǎng)站,所以利用 單雙號法則 來限制 漫游器 的訪問頻率:

Crawl-delay: n 每次抓取間隔n秒。

Request-rate: x/n 抓取x個頁面在n秒之內(nèi)。

掘金漫游器法則

在講完了整體的漫游器法則構(gòu)成,讓我們一起閱讀一下 掘金漫游器法則。訪問 https://juejin.im/robots.txt 就可以看到如下內(nèi)容:

User-agent: *
Request-rate: 1/1
Crawl-delay: 5

Disallow: /timeline
Disallow: /submit-entry
Disallow: /new-entry
Disallow: /edit-entry
Disallow: /notification
Disallow: /subscribe/subscribed
Disallow: /user/settings
Disallow: /reset-password
Disallow: /drafts
Disallow: /editor
Disallow: /user/invitation
Disallow: /user/wallet
Disallow: /entry/*/view$
Disallow: /auth
Disallow: /oauth
Disallow: /zhuanlan/*?sort=newest
Disallow: /zhuanlan/*?sort=comment
Disallow: /search
Disallow: /equation

可以看到掘金漫游器法則還是相對寬松的,限制了訪問評率和不應(yīng)該訪問網(wǎng)頁,沒有對具體的 百度漫游器谷歌漫游器 等作出限制,所以同學(xué)也可以寫 漫游器 來爬取掘金的部分內(nèi)容。比如今天的沸點中就看到了:

SEO 相關(guān)內(nèi)容

H1 の 小秘密

SEO 初體驗

img の 小九九

千里姻緣一線牽

投懷送抱

漫游器法則

其他

關(guān)于 robot.txt 生成的工具這里推薦 robots文件生成 簡單易用。

小二在這里只討論了一些力所能及容易做到 的 SEO 內(nèi)容,關(guān)于 SEO 相關(guān)的內(nèi)容就討論到這里了。雖然 語義化標(biāo)簽 這部分內(nèi)容也對 SEO 有所幫助,但是實踐起來挺難做到的,如果小二有想簡單且容易理解的方法到時候再補上這篇。

一起成長
在困惑的城市里總少不了并肩同行的 伙伴 讓我們一起成長。

如果您想讓更多人看到文章可以點個 點贊。

如果您想激勵小二可以到 Github 給個 小星星。

如果您想與小二更多交流添加微信 m353839115。

本文原稿來自 PushMeTop

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/103413.html

相關(guān)文章

  • 每日 30 ? 終極等于

    簡介 字符串、數(shù)字、數(shù)組、對象、時間、類型、等于 科學(xué)家發(fā)現(xiàn),人腦中會分泌多種能讓人感到快樂、安全和成就感的物質(zhì),這些物質(zhì)統(tǒng)稱為快樂素。通常情況下,快樂素的釋放水平很低,維持我們心情平靜。只有當(dāng)我們完成了預(yù)設(shè)目標(biāo),作為獎勵,大腦才會增加快樂素的分泌,讓人感受到滿足和成功的喜悅。 這是之前看到的一篇關(guān)于 大腦獎勵機制 文章的一段話,為了要獲得獎勵我們需要有預(yù)設(shè)目標(biāo),而是每日 30 秒系列也是為了幫助...

    lakeside 評論0 收藏0
  • 每日 30 ? 扼住焦點的喉嚨

    簡介 無障礙、HTML 小細(xì)節(jié)、焦點、a11y、Accessibility、框架選擇 無障礙開發(fā)還是應(yīng)該從 HTML 開始聊起,無論是盲人閱讀器還是瀏覽器等工具最核心的部分還是在 HTML,畢竟沒了 CSS 只是不美觀了,沒了 JavaScript 只是少了交互和無限擴展的可能性。 有的同學(xué)會說了產(chǎn)品和老板拿著鞭子在后頭趕馬車哪里有時間寫這些?,F(xiàn)實是這樣的,但是在選擇UI框架的時候可以選擇 無障礙...

    antyiwei 評論0 收藏0
  • 3D全景漫游

    摘要:可選,默認(rèn)值為,設(shè)置為則禁止用戶和全景圖交互導(dǎo)航條不可用??蛇x,默認(rèn)值為,全景圖在毫秒后會自動進行動畫。當(dāng)全景圖準(zhǔn)備就緒并且第一張圖片顯示時的回調(diào)函數(shù)。 3D全景漫游 showImg(http://mmbiz.qpic.cn/mmbiz/cibketMByvrbpDqUQ9LiaBvutnwMehicnO2RZurdl96FLtwqlf6LjWS0Bv8ApQY0YjHdtyFWuzz...

    DesGemini 評論0 收藏0
  • 每日 30 ? 巧用可視區(qū)域

    簡介 可視區(qū)域、頁面優(yōu)化、DOM節(jié)點多、圖片懶加載、性能 可視區(qū)域是一個前端優(yōu)化經(jīng)常出現(xiàn)的名詞,不管是顯示器、手機、平板它們的可視區(qū)域范圍都是有限。在這個 有限可視區(qū)域 區(qū)域里做到完美顯示和響應(yīng),而在這個區(qū)域外少做一些操作來減少渲染的壓力、網(wǎng)絡(luò)請求壓力。在 每日 30 秒之 對海量數(shù)據(jù)進行切割 中的使用場景,我們就是利用了 有限可視區(qū)域 只渲染一部分 DOM 節(jié)點來減少頁面卡頓。 既然 可視區(qū)域 ...

    DevYK 評論0 收藏0
  • 每日 30 ? 判斷是否為頁面底部

    showImg(https://segmentfault.com/img/remote/1460000018771130?w=900&h=500); 簡介 分頁、優(yōu)化、可視區(qū)域、無限加載 寫前端頁面時最經(jīng)常遇到的開發(fā)需求之一就是 渲染后端數(shù)據(jù)返回的數(shù)據(jù)對象,當(dāng)數(shù)據(jù)對象數(shù)量極多的時候便需要進行分頁。 常見的分頁方式有三種: 在頁面底部生成 上一頁、下一頁、頁面列表 按鈕。 用戶可以很直接的選擇...

    callmewhy 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<