大家都知道所謂的網站日志,就是網站所在服務器接受用戶的各種請求的時候進行的處理狀況的記錄,無論是正常處理或者是出了各種錯誤,都會在網站日志中記錄下來,其文件結尾以.log為擴展名。通過對網站日志的分析,我們可以很好的判斷我們的網站的健康程度,并且還可以看到蜘蛛抓取的記錄以及用戶的一些行為記錄,這樣數據對于我們來講無疑是提升網站的一個關鍵,可以時刻的讓我們看到網站的不足之處,從而進行改正。
(一)查看蜘蛛訪問的次數、停留時間以及抓取的數量。
從小標題中的三個小編提到的數據我們可以了解到下面幾點信息:
1、平均每次抓取頁面數=總抓取量/訪問次數
2、單頁抓取停留=每次停留/每次抓取
3、平均每次停留時間=總停留時間/訪問次數
以上三點載自百度百科。
從這些數據中我們可以很好的看出百度蜘蛛在我們網站上的活躍度、是否親和,以及我們網站內容抓取的深度等等有效的數據。當我們網站中總的訪問頻次、蜘蛛停留的時間,以及網站抓取程度的是否高,從這些都是可以看出我們網站是否受到蜘蛛的喜愛。并且在我們單頁面的蜘蛛停留時間的長短也可以看出我們的文章頁面是否受蜘蛛的喜愛。
(二)了解蜘蛛是否訪問我們的頁面以及訪問頁面的狀態代碼。
很多朋友的網站主頁快照經常不正常,網站發布的文章也經常不收錄,面對這樣的情況我們都會想蜘蛛有沒有到我們的網站抓取。這時候我們也可以通過網站日志來看是否有蜘蛛IP的記錄就可以了解蜘蛛是否來爬行我們的網站,從而判斷是否是我們網站質量的原因導致不收錄。并且也可以看出蜘蛛訪問我們網站頁面的狀態代碼,例如說301、503、403等,當出現這樣情況的時候,我們盡早做處理,以免成為網站降權的隱患。長沙做網站
(三)網站日志文件應該按訪問量多少,來確定是否需要按小時生成。
我的一個站長朋友,網站是每天生成一個日志文件,前段時間他參加了電商圈比賽,網站排名保持在首頁,每天的流量有上千IP,每天的網站日志文件大小大約50M左右,有點杯具的是他的電腦舊了點,一打開網站日志文件不是沒反應就是死機。他只好通過網絡把日志傳給我,讓我幫著分析一下,50M的文件雖然不大,問題是他用電信網絡,我用網通網絡,在傳日志的時候經常杯具。50M的日志文件,我用的日志分析程序也經常數據溢出、崩潰,無奈只好用文本編輯打開查看,面對密密麻麻的日志文本,統計分析這些數據實在非常非常困難。所以,建議網站訪問量比較大的站長朋友,最好按小時生成網站日志,雖然生成文件多了點,但更有利于網站日志的分析。
(四)了解蜘蛛抓取的時間段。
通過日常日志分析總結中,你會很奇妙的發現一件事,那就是蜘蛛會在每天的一個特定時間內在網站爬行抓取的很活躍,當我們了解到這樣的情況,我們就可以再特定的時間去更新網站內容,這個可以更加有效的讓蜘蛛抓取我們網站內容,從而達到一個秒收的效果。
(五)我們應該知道網站日志記錄的信息實際并不完整。
不知道各位站長朋友,有沒有注意到,網站日志里很少出5xx的返回代碼。例如,500返回代碼表示服務器內部錯誤,503返回代碼表示服務不可用。各位站長朋友都知道,5xx返回代碼一般意味著網站服務器出了故障,一般情況下,服務器出了故障是無法生成網站日志的。換個說法,當網站服務器宕機了,或者dns解析不了,所有人都無法訪問,蜘蛛也無法訪問,在這段時間里,網站日志肯定是無法記錄任何信息的。為了更好的監控網站情況,我個人建議大家去注冊并使用谷歌站長管理工具,可以有效的記錄服務器訪問錯誤信息。長沙做網站