來源:本站日期:2017-7-7
各位站長朋友通常都會給自己的網站安裝cnzz、百度統計等站長統計工具,可是,這些站長統計工具不會記錄網絡蜘蛛的爬取情況。一些站長朋友通常會用日志分析工具對網站日志分析蜘蛛爬取情況。我個人認為,可能大部分站長對網站日志的統計分析過程中,忽略了...
一、網站日志文件應該按訪問量多少,來確定是否需要按小時生成。
一個站長朋友,網站是每天生成一個日志文件,前段時間他參加了電商圈比賽,網站排名保持在首頁,每天的流量有上千IP,每天的網站日志文件大小大約50M左右,有點杯具的是他的電腦舊了點,一打開網站日志文件不是沒反應就是死機。他只好通過網絡把日志傳給我,讓我幫著分析一下,50M的文件雖然不大,問題是他用電信網絡,我用網通網絡,在傳日志的時候經常杯具。50M的日志文件,我用的日志分析程序也經常數據溢出、崩潰,無奈只好用文本編輯打開查看,面對密密麻麻的日志文本,統計分析這些數據實在非常非常困難。所以,建議網站訪問量比較大的站長朋友,最好按小時生成網站日志,雖然生成文件多了點,但更有利于網站日志的分析。
二、網站日志記錄的信息實際并不完整。
不知道各位站長朋友,有沒有注意到,網站日志里很少出5xx的返回代碼。例如,500返回代碼表示服務器內部錯誤,503返回代碼表示服務不可用。各位站長朋友都知道,5xx返回代碼一般意味著網站服務器出了故障,一般情況下,服務器出了故障是無法生成網站日志的。換個說法,當網站服務器宕機了,或者dns解析不了,所有人都無法訪問,蜘蛛也無法訪問,在這段時間里,網站日志肯定是無法記錄任何信息的。