解釋網(wǎng)頁的四種類型,熟悉網(wǎng)頁的分類。
顧名思義,被抓取的網(wǎng)頁就是被蜘蛛抓取過的網(wǎng)站內(nèi)容。待爬取是尚未被爬取但已進入等待列表的頁面。可抓取的是尚未找到但已經(jīng)存在的頁面。暗網(wǎng)是搜索引擎通過鏈接自行抓取找不到的頁面,需要手動提交。
通常我們分析的頁面抓取主要是非暗網(wǎng)的頁面抓取,每個搜索引擎都有自己獨特的算法,所以不做過多分析。
搜索引擎的抓取策略有兩種,即廣度優(yōu)先策略和深度優(yōu)先策略。
廣度優(yōu)先策略的解釋
大多數(shù)網(wǎng)頁除了自己的鏈接之外,還有很多鏈接。例如,詳細信息頁面有相關(guān)新聞和相關(guān)案例的鏈接。當(dāng)一個搜索引擎訪問一個頁面時,將頁面上的所有鏈接依次入庫,然后對找到的頁面進行爬取,再將新發(fā)現(xiàn)的URL入庫進行爬取。按照這個邏輯,依次爬行就是廣度優(yōu)先策略。如圖:抓取順序為1-2,3,4-5-11-6-12-3-7-13-8-14。用圖文了解自己。
深度優(yōu)先策略的解釋
按照頁面上的一個鏈接一層一層爬,直到爬完最后一個鏈接,然后回到初始位置用同樣的方法爬完剩下的鏈接,這就是深度優(yōu)先策略。
無論是廣度優(yōu)先還是深度優(yōu)先,只要有足夠的時間,搜索引擎都可以抓取所有的頁面,但是搜索引擎的抓取能量是優(yōu)先的,不能保證抓取頁面的全面性。搜索引擎由于自身資源的原因,不得不考慮抓取頁面的優(yōu)先級。還有另外兩種抓取策略。
重要網(wǎng)頁的優(yōu)先抓取策略
總之,搜索引擎的資源是有限的。在搜索引擎資源有限的情況下,盡量依靠外部鏈接來引導(dǎo)蜘蛛,提升網(wǎng)站權(quán)重。這是SEO搜索引擎優(yōu)化網(wǎng)站長期運營最重要的。