第一:針對提取出的內容進行分詞處理
個人認為,搜索引擎可能采用了某種算法,對內容先進行了詞語粗分階段,先得出N個概率最大的切分結果;然后,利用角色標注方法識別未登錄詞,并計算其概率,將未登錄詞加入到切分詞圖中,之后視其為普通詞處理,最終進行動態規劃優選出N個最大概率切分標注結果。并進行記錄。
第二:搜索引擎首先對要要分析的網頁進行凈化處理
網頁凈化主要是去掉網頁中大量無用的廣告、導航欄等網頁模板噪聲以及無意義的內容,如Javascript腳本,CSS標記等內容。至于搜索引擎采用的是何種算法,則不為我們所知,但是個人估計應該是對網頁進行劃分為不同的快,通過衡量網頁塊的重要程度來判斷出包含主題內容的塊,然后提取出該塊的內容,至于搜索引擎如何判別網頁快的重要程度,那是另外一個課題。
第三:對關鍵詞的權重進行確定分析
在完成對文章分詞切分和凈化工作之后,就要將文章所有關鍵詞進行分析了,筆者的想法是搜索引擎將文本表示成Ⅳ維特征向量,每一維分量由關鍵詞及其權重組成。一般認為,關鍵詞在文中的權重的確定,主要由三部分組成,詞頻,位置和詞義共同影響決定。而詞頻和位置對詞語或短語的影響可以通過確定的算法加以確定,詞義權重也有固定的算法進行分析計算。搜索引擎利用設定好的算法對上述關鍵詞進行了計算和分析。從而得到最后的結果。
第四:對初步分詞的結果進行去除無意義的詞語
搜索引擎通過對第二步的分詞結果進行分析,去除一些語氣詞和形容詞等非實意詞和一些單詞,同時還考慮到單字詞所表達的信息不夠完整也應當濾除。去除停用詞通過建立一個停用詞列表來實現。這樣,通過去除這些無意義的詞之后,剩下的就是有意義的,值得分析的詞匯了。
筆者認為,搜索引擎通過上面的步驟進行分析后,得到最后的結果,而筆者在這里談談自己對搜索引擎具體的分析方式,只是個人見解:
第一:搜索引擎基于關鍵詞出現的頻率
網頁中不同關鍵詞的總數,這是一個很重要的方面。個人認為雖然關鍵詞出現的位置和詞頻大小對關鍵詞權重影響很大,但是詞頻大并不能決定該詞語適合作為關鍵詞。舉個簡單的例子,我們在一篇文章中對“美國’’進行優化,出現的詞頻很大,出現的位置也很重要,但是這個詞還是不能賦予較高的權重,因為“美國’’也廣泛的出現在其他的文獻中,在這些文獻中,“美國"也存在頻率大和所在位置也比較重要。因此,對那些詞頻較高但又不適合作為關鍵詞的詞語賦予的權重應該較低。
第二:搜索引擎基于關鍵詞位置的權重
在文檔中,關鍵字所在的位置對于搜索引擎判斷某個關鍵字在頁面的權重起到很重要的作用。比如說域名被搜索引擎認為是網站最固定的因素,例如:域名里面含有 DVD關鍵字的域名,在用戶檢索關鍵字DVD的時候具有先天的優勢。標題是網站的最寶貴的資源,搜索引擎認為標題是在瀏覽器標題欄里而顯示,因為要顯示給用戶,所以它是文件最重要和最簡潔的摘要。適當突出關鍵字在標題的比重非常有利于排名的提高。
第三:文檔中重要關鍵詞之間的距離
個人分析,文檔中重要關鍵詞之間的距離應該也是衡量關鍵詞與文章的相關性的一個重要方面。