第一:網站內容重復的情況一般有哪些
網站重復內容一般會有以下幾種情況:
1、同樣一篇文章出現多個URL,即使這篇文章屬于原創,也會被百度給予懲罰
2、網站內容多為采集,這種網站內容重復會被當做采集站直接被百度處理掉,百度新的綠蘿算法就是專門打擊采集站點的。
3、網站的固定版塊出現次數太多,很多網站的右側總是固定放一些版塊或欄目,這些欄目的內容從來不進行更新,或者各個頁面的右側都是前篇一律的內容,就會造成頁面重復度高。
4、未設置404錯誤頁面,當我們刪除某一個頁面的時候,一定要用404狀態碼給予用戶和蜘蛛一定的提示,如果代碼設置錯誤,那么刪除的頁面在蜘蛛那里是假想存在的,由此一來就會多次收錄。
5、動態頁面和靜態并存,百度爬去目錄時收錄了大量動態頁面
6、網站內容以圖片為主,文字很少,很多圖片都是共用一個URL地址,這樣一來蜘蛛在索引的時候很難保證不被重復收錄。
第二:如何解決網站內容重復的問題
1、增加原創內容,減少采集內容
對于網站內容多為采集或簡單偽原創的網站,筆者建議增加原創文章的內容,寧可百度收錄少一些,也不要讓百度把之前收錄的文章吐出來。
2、采集內容,也有進行低度的偽原創
這一點相信大家都用過,把別人的文章搬過來稍加改動,蜘蛛最厭煩這樣的文章了。
3、每一個頁面都配上獨立的標題
為每一個頁面都配上獨立的標題,尤其是頻道頁,這樣可以讓蜘蛛在檢索的時候注意到它的獨有性,從而得到更好地權重分配和優化優勢。
4、網站固定欄目內容隨機展示
可以根據正文的關鍵詞,隨機調用右側欄目的文章內容,讓每一個頁面都有不一樣的內容,避免大量頁面相似度高的情況出現。
5、減少多重URL
也許你的程序即可實現動態也可實現靜態,或者之前是靜態現在變為動態等情況,出現一個網頁有多個URL。兩種都是指同一個網頁,但卻被搜索引擎以不同的URL抓取,這種情況我們盡量使用一種URL格式。
6、修改meta標簽
一個好的描述對于蜘蛛的收錄判斷起著重大的影響作用,但是現在很多站點采用的都是CMS程序,無論大規模的實現meta標簽獨立化,所以我個人建議大家手動修改一部分meta標簽。
7、修改CSS樣式表
很多新手站長為了減少自己建設網站的難度,有時候就會去下載別人的網站主頁或是內容頁,然后稍微修改一下就放到自己的網站中了,但是新手站長不要忘了,下載下來的樣本頁中有很多相似的CSS樣式表,如果不加修改必然會讓網站重復度升高。當然能自己做就自己坐,保持特色是王道。
8、設置404頁面
設置404頁面可以告知用戶和搜索引擎某些頁面不存在了,防止搜索引擎收錄大量死鏈。
9、減少無效內容之間的鏈接
很多時候我們會對之前的網站結構或是內容頁進行修改,而那些被刪除的頁面一定要用管理員工具,以免蜘蛛重復抓取,謹防形成類似于狀態碼200的情況。