首先要明確一點,本文探討范圍僅限內容頁,而非專題頁、列表頁和首頁。那么我在甄別這兩類文章之前,我需要先進行信息的采集。本文對于spider程序部分不進行闡述。當spider程序下載下來網頁信息后,在內容處理的模塊中,我需要先對內容除噪。如果是我,我會喜歡什么樣子的文章呢?我會喜歡我的用戶喜歡的文章,如果硬要加判定標準,那無外乎是兩種:1.原創且用戶喜歡。
2.非原創且用戶喜歡。在這里,我的態度很明顯,偽原創就是非原創。那么用戶喜歡什么樣的文章呢?很顯然,一些新觀點、新知識往往是用戶喜歡的,也就是說通常原創文章都是用戶喜歡的,而且即便用戶不喜歡,原創站點作為新鮮內容的制造者,也應該受到一定的保護。那么非原創的文章用戶就一定不喜歡嗎?誠然否也。一些站點,其內容往往是經過搜集整理后聚合而成的,那么這些站點對用戶來說就是有價值的,其相對應的文章理應獲得較好的排名。
很多SEO他們懶,進行所謂的偽原創,你說你偽原創時插入點自己的觀點與資料也成,結果你們就是改個近義詞什么的,于是我就用到了特征向量,通過特征向量的判斷,把你們這些低劣的偽原創抓出來。關于這個,判斷思想很簡單,你權重最高的前N個關鍵詞集合極為相似的時候,判斷為重復。這里所謂的相似包括但不僅僅局限于權重最高的前N個關鍵詞重合,于是構建了特征向量,當對比的兩個向量夾角與長度,當夾角與長度的差異度小于某個特定值的時候,我將其定義為相似文章。
如果是(shi)(shi)(shi)一(yi)個(ge)注重(zhong)(zhong)用戶體驗的(de)(de)(de)聚合(he)(he)性網(wang)站(zhan),那么他(ta)的(de)(de)(de)作用是(shi)(shi)(shi)將現有的(de)(de)(de)互(hu)聯網(wang)內(nei)(nei)(nei)容經過精(jing)心的(de)(de)(de)分類與關聯,來方(fang)便(bian)(bian)用戶更(geng)好、更(geng)有效的(de)(de)(de)閱讀。針對這(zhe)(zhe)樣的(de)(de)(de)站(zhan)點,即便(bian)(bian)其文章不(bu)(bu)是(shi)(shi)(shi)原創(chuang)而是(shi)(shi)(shi)從(cong)互(hu)聯網(wang)上(shang)摘抄的(de)(de)(de),我(wo)也(ye)會給予其足(zu)夠(gou)的(de)(de)(de)重(zhong)(zhong)視與排名,因為(wei)它良好的(de)(de)(de)聚合(he)(he)內(nei)(nei)(nei)容往往更(geng)能滿足(zu)用戶的(de)(de)(de)需求。你(ni)們說,為(wei)什么當(dang)站(zhan)文章中(zhong)有大量(liang)(liang)相同時(shi),會快(kuai)速引起搜(sou)(sou)索(suo)引擎(qing)懲罰呢?這(zhe)(zhe)里我(wo)說的(de)(de)(de)不(bu)(bu)是(shi)(shi)(shi)摘抄與原創(chuang)的(de)(de)(de)問題(ti),而是(shi)(shi)(shi)你(ni)站(zhan)內(nei)(nei)(nei)自己和自己的(de)(de)(de)文章重(zhong)(zhong)復。之(zhi)所以(yi)搜(sou)(sou)索(suo)引擎(qing)反應(ying)這(zhe)(zhe)么快(kuai),同時(shi)懲罰嚴厲,根本(ben)原因就(jiu)是(shi)(shi)(shi)在(zai)你(ni)的(de)(de)(de)文章中(zhong),他(ta)提(ti)取不(bu)(bu)到內(nei)(nei)(nei)容。現在(zai)基本(ben)上(shang)搜(sou)(sou)索(suo)引擎(qing)對于原創(chuang)的(de)(de)(de)識別,在(zai)大面上(shang)采(cai)用的(de)(de)(de)是(shi)(shi)(shi)關鍵詞匹配(pei)結(jie)合(he)(he)向量(liang)(liang)空間模型來進行判斷。Google就(jiu)是(shi)(shi)(shi)這(zhe)(zhe)么做(zuo)的(de)(de)(de),在(zai)其官(guan)方(fang)博(bo)客(ke)有相應(ying)的(de)(de)(de)文章介紹。這(zhe)(zhe)里,我(wo)就(jiu)做(zuo)個(ge)大白話版本(ben)的(de)(de)(de)介紹,爭取做(zuo)到簡單易(yi)懂。