掃二維碼與項(xiàng)目經(jīng)理溝通
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
近日我們上線了“微構(gòu)網(wǎng)絡(luò)項(xiàng)目管理與客戶服務(wù)管理系統(tǒng)”,得到眾多老客戶的一致好評(píng)。我們是紅網(wǎng)論壇的技術(shù)服務(wù)商,因此也在系統(tǒng)中把紅網(wǎng)論壇也納入網(wǎng)站狀態(tài)巡查計(jì)劃中,一般情況下即便是普通網(wǎng)站也不太會(huì)出現(xiàn)網(wǎng)站訪問(wèn)異常問(wèn)題,最多可能是各類預(yù)警級(jí)別的信息。然而就在今天收到了系統(tǒng)自動(dòng)推送的異常信息,發(fā)現(xiàn)異常的項(xiàng)目還是紅網(wǎng)論壇。
當(dāng)時(shí)就很詫異,怎么剛加入巡查網(wǎng)站就出現(xiàn)異常了,怎么回這么巧呢,而且紅網(wǎng)作為較大的媒體網(wǎng)站,不太可能輕易就出現(xiàn)這種異常呀。但細(xì)看系統(tǒng)反饋的結(jié)果是403異常返回碼,而不是直接不能訪問(wèn)或者50x錯(cuò)誤。
然后用瀏覽器打開(kāi)紅網(wǎng)論壇,發(fā)現(xiàn)是可以完全正常訪問(wèn)的。那么系統(tǒng)為啥會(huì)反饋這條異常信息的,難道我們的巡查系統(tǒng)誤報(bào)了么(客觀上,會(huì)存在誤報(bào)可能,只是幾率很低)。這個(gè)403異常返回碼的預(yù)警信息,在巡查系統(tǒng)中其實(shí)是為了識(shí)別某些掛馬代碼會(huì)單獨(dú)為了識(shí)別百度蜘蛛進(jìn)行惡意跳轉(zhuǎn)的,因此在巡查系統(tǒng)中加入了Baiduspider等識(shí)別字符。
通過(guò)單元測(cè)試后發(fā)現(xiàn),紅網(wǎng)論壇之所以被巡查系統(tǒng)發(fā)送異常提示,就是因?yàn)楫?dāng)訪問(wèn)請(qǐng)求中包含了部分百度蜘蛛特征時(shí),系統(tǒng)就會(huì)返回異常。
返回異常返回碼403,在返回body內(nèi)容中出現(xiàn)了這樣的:
也就是被網(wǎng)站使用的防火墻工具(創(chuàng)宇盾)攔截了這種請(qǐng)求,因此網(wǎng)站系統(tǒng)會(huì)返回403狀態(tài)碼(即禁止訪問(wèn))。
憑借筆者有不少seo方面的經(jīng)驗(yàn),于是就有兩個(gè)猜想:
1、防火墻會(huì)攔截所有來(lái)自百度蜘蛛的請(qǐng)求,不管是真實(shí)的百度蜘蛛,還是用于測(cè)試來(lái)模擬百度蜘蛛訪問(wèn)。
2、防火墻比較高級(jí),會(huì)識(shí)別真實(shí)的百度蜘蛛請(qǐng)求(真的蜘蛛)和模擬測(cè)試的蜘蛛請(qǐng)求(假的蜘蛛),如果是真實(shí)的不攔截,如果是假的攔截。
為了進(jìn)一步分析,筆者查看了紅網(wǎng)論壇在百度搜索引擎上的表現(xiàn),發(fā)現(xiàn)收錄的內(nèi)容基本是之前創(chuàng)建的。嘗試了很多條新發(fā)布的內(nèi)容,百度均沒(méi)有收錄。測(cè)試了數(shù)十條一個(gè)月以內(nèi)發(fā)布的論壇主題,發(fā)現(xiàn)均不被百度收錄。
但是紅網(wǎng)這種影響力的網(wǎng)站,再者這種網(wǎng)站內(nèi)容更新頻率和內(nèi)容質(zhì)量都比較高,而且網(wǎng)站搜索引擎權(quán)重也比較高。理應(yīng)不會(huì)有這么差的收錄表現(xiàn),即便是微構(gòu)網(wǎng)絡(luò)這種企業(yè)官網(wǎng)小網(wǎng)站,幾乎能夠做到95%以上的收錄率,絕大多數(shù)時(shí)間都是100%的收錄率。所以,這顯然不正常。
再看下紅網(wǎng)www主站這種模擬請(qǐng)求,返回狀態(tài)是沒(méi)有問(wèn)題(返回200)。
隨便在主站首頁(yè)找一篇內(nèi)容,基本都是全部收錄,而且通過(guò)百度快照時(shí)間判斷,收錄時(shí)間很是非常快(可以認(rèn)為是秒收)。
通過(guò)以上的信息,基本上可以評(píng)估認(rèn)為,只要是帶有百度等搜索引擎蜘蛛的請(qǐng)求標(biāo)識(shí),都會(huì)被防火墻攔截。這樣一來(lái),百度蜘蛛都被禁止訪問(wèn)網(wǎng)站了,自然相關(guān)網(wǎng)站頁(yè)面也就不會(huì)被百度蜘蛛抓取到,抓取不到自然就不會(huì)被收錄了。
所以我們?nèi)粘P枰P(guān)注自己網(wǎng)站的一些狀態(tài),比如通過(guò)分析網(wǎng)站分析日志,也可以利用一些工具模擬搜索引擎訪問(wèn)網(wǎng)站,查看返回的信息是否達(dá)到預(yù)期。
如上圖就是某網(wǎng)站訪問(wèn)日志的部分節(jié)選,這段節(jié)選日志標(biāo)志著百度、谷歌、必應(yīng)等搜索引擎的蜘蛛到訪記錄,且網(wǎng)站返回結(jié)果是200(正常返回碼)。如果這些請(qǐng)求都是異常的,那么顯然網(wǎng)站在搜索引擎的表現(xiàn)不會(huì)太好。
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢/運(yùn)營(yíng)咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流