一、蜘蛛爬取原理
大自然的蜘蛛我相信大家都看到過,它是通過網來進行爬取的。而搜索引擎的蜘蛛是通過鏈接來爬取的。蜘蛛在網頁上爬取到一個鏈接就會把它放到一個單獨的數據庫。這些數據庫都是有特性的,特性就是域名的后綴。
常用的后綴有、.org、、.cn、.cn等等。
蜘蛛會把這些域名后綴的鏈接放到一個數據庫,然后逐個去爬取,這可能是很多站長朋友的一個誤區。蜘蛛是不會像用戶一樣直接點擊進入的,如果那樣,那么這個蜘蛛就可以一直在外面不用回家了。因為每個網頁都是有鏈接不斷的循環的,爬不完的。
百度反向鏈接蜘蛛也是會爬取的,有些朋友稱之為相關域。百度相關域的意思就是說,只有一個頁面被百度收錄了,并且這個頁面包含你的域名,比如:www.yjszhukao ,這不是一個超鏈接,但是只有百度收錄了我寫的這篇文章的頁面,那么蜘蛛是會把這個域名列入它的數據庫的,然后也會爬取。并且也會計算權重,這就是我們所說的鏈接誘餌,用來吸引蜘蛛。
二、如何加快百度快照以及收錄
百度快照的更新是因為蜘蛛重新抓取了你網站的頁面,發現你的內容有改動,所以就會返回快照日期。當然有些朋友就會說,我的網站一個多月甚至更久都沒有更新過,但是我的快照依然每天更新,這個你怎么解釋。這個是因為你的網站權重高,蜘蛛經常來你的網站,這個它也是會不斷的返回數據,更新你的百度快照。所以總結一點,想讓快照更新快,其中很重要的一點就是吸引蜘蛛來到你的網站,如果蜘蛛都不來,那么百度如何更新?除非你和李彥宏有一腿(后面省略300字)。
那么如何加快收錄呢?不知道各位站長朋友是否發現這樣一個現象。查看IIS日志的時候,發現某個頁面被蜘蛛爬取過,但是沒有收錄,過了一陣子又發現被收錄了。這是為什么?這個原因很簡單,蜘蛛不可能來一次就爬取你網站里面的所有頁面,也不可能把所有爬取的都收錄,那樣數據量太龐大,服務器壓力太大。蜘蛛來到網站以后會把頁面下載到它自己的數據庫,然后進行分析。分析內容,然后計算一個分數,再來評分。那么想要加快收錄,結合我上面說的引蜘蛛,讓蜘蛛不斷的來到你的網站,并且更新一些用戶度了有用的文章。不一定要是原創,或者偽原創。
很多朋友不解,都說網站更新要原創和偽原創,你這樣復制人家的,百度會K掉你的,重復了。其實并非這樣,說到這里,這就涉及到一個用戶跳出率的概念了。百度收錄一篇文章,也是會通過用戶的喜好來判斷的,如果你這篇文章有用,用戶喜歡,那么一樣會收錄的,因為用戶有需求。只有呈現給用戶好的,才叫高質量的文章,而并非是你自己改改標題,顛倒一下文章順序,就是一篇好的文章。
始終記住一點,搜索引擎是為用戶服務的,一切符合用戶的設計,就是符合搜索引擎。
上一條:
新手做網站如何構建一個網站的布局下一條:
電商企業面臨資金壓力:廣告成本年增4至10倍