由于網站的內容經常在變化,因此網絡蜘蛛也需不斷地更新其抓取網頁的內容,這就需要網絡蜘蛛按照一定的周期去掃描網站,查看哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經過期的死鏈接。搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長,則總會有一部分新生成的網頁搜索不到;周期過短,技術實現會有一定難度,而且會對帶寬、服務器的資源都有浪費。搜索引擎的網絡蜘蛛并不是所有的網站都采用同一個周期進行更新,對于一些重要的更新量大的網站,更新的周期短,如有些新聞網站,幾個小時就更新一次;相反對于一些不重要的網站,更新的周期就長,可能一兩個月才更新一次。
一般來說,網絡蜘蛛在更新網站內容的時候,不用把網站網頁重新抓取一遍,對于大部分的網頁,只需要判斷網頁的屬性(主要是日期),把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。
分析表明,網絡蜘蛛在搜索引擎中占有重要位置,對搜索引擎的查全、查準都有影響,決定了搜索引擎數據容量的大小,而且網絡蜘蛛的好壞直接影響搜索結果頁中的死鏈接(即鏈接所指向的網頁已經不存在)的個數。目前如何發現更多的網頁、如何正確提取網頁內容、如何下載動態網頁、如何提供抓取速度、如何識別網站中內容相同的網頁等都是網絡蜘蛛需要進一步改進的問題。
請立即點擊咨詢我們或撥打咨詢熱線: 021-60554347,我們會詳細為你一一解答你心中的疑難。項目經理在線