SEO教程提供SEO基礎入門教程
微笑SEO優化教程網:關注本站讓你的SEO不斷進步!

獲取排名的算法:中文分詞

您現在的位置:SEO教程 > SEO優化教程 > 時間:2018-06-28 14:10:35 > 作者:smiseo
分詞是中文搜索引擎中特有的技術。在英文中以單詞為單位,單詞之間會有空格,并且每個單詞都有特定的意思,計算機很容易理解英文語句的意思。但是中文以字為單位,只有將一句話中所有的字串聯起來才能表達一個完整的意思,計算機不能直接把中文分成單個字來理解,所以就需要引入中文分詞技術,把一句話切分成一個個有意義的詞語來進行理解。比如把“我是一個學生”切分成“我/是/一個/學生”。
獲取排名的算法:中文分詞    
搜索引擎面對中文網頁時就是這樣,靠中文分詞來理解網頁所描述的內容。其實分詞技術的基礎就是擁有海量的有意義的詞庫(詞典),搜索引擎會使用自己強大的詞庫來對網頁內容進行拆分,或者是對內容進行機械切割,統計出出現次數最多的詞。通過分詞就可以使得搜索引擎明白該網頁內容是與什么相關的,這會直接決定該網頁出現在哪些詞的搜索結果中,所以中文分詞在SEO工作中也是需要潛心研究的。現在很多SEO人員只是知道有這么個技術,但是對這項技術具體是怎么進行分詞的,以及中文分詞是怎么運用到SEO工作中的還一無所知。
 
搜索引擎對于中文內容的理解和分詞一直都沒有太大的進步,所以搜索引擎程序在判斷網頁內容和關鍵詞的相關性方面的技術,與幾年前相比也并沒有太大進步。現在常見的中文分詞技術有兩種:基于詞典匹配和基于統計,也有研究基于語義分析的分詞方法,但是漢語博大精深,計算機程序暫時還不能很好地支持。
 
1.基于詞典匹配:這種分詞技術是使用搜索引擎自己的詞典對網頁內容進行拆分。按照匹配方向的不同可以分為正向匹配和逆向匹配;按照不同長度優先匹配的不同可以分為最長匹配和最小匹配。常見
的三種匹配方法是正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最少切分。不論使用什么樣的匹配方式,都是使用搜索引擎已有的詞典,對網頁內容進行拆分理解。這種分詞方式的準確度取決于詞典的完整性和更新情況。如果當一個新詞出現時,搜索引擎沒有即時把該詞加入到詞典中,那么就會影響最終的分詞精度。尤其是在網絡如此發達的今天,幾乎每天都有新詞出現。
 
2.基于統計:這種分詞技術不依靠詞典,而是對大量文字樣本進行分析,然后把相鄰出現次數比較多的幾個字當成一個詞來處理。基于統計的分詞方法在一定程度上解決了搜索引擎詞典更新的問題,并且有利于消除歧義。
 
在當前的搜索引擎中文分詞中多多少少都會存在著一些難題沒有解決,這可能是因為漢語真的太博大精深了,在當下計算機根本不可能完全理解。比如,.網絡上流傳的兩句話“以前喜歡一個人,現在喜歡一個人”“以前誰都看不上,現在誰都看不上”,有些人第一眼看到這兩句話也不太理解,相信搜索引擎在短期內更不會真正理解這兩句話。
 
搜索引擎會把網頁拆分出來的詞按照詞頻進行排序,使用TF-IDF之類的算法以確定該網頁主要和哪些詞相關,并進行相關度計算。搜索引擎會綜合各方面因素來確定當前頁面主要描述的內容。分詞技術指導SEO人員在進行網站內容建設和關鍵詞布局時,可以把一個關鍵詞分成更小的單位進行拆分布局,這樣不僅可以加強網頁和這個關鍵詞的相關度,也會使得網頁匹配出更多的關鍵詞。
 
如圖2-11所示為在百度搜索長尾詞“搜索引擎優化公司”,圖中自然搜索結果的第一和第二名的網頁Title. Description和頁面內容都沒有完整出現“搜索引擎優化公司”這個詞,但是依然擁有比較不錯的排名。
獲取排名的算法:中文分詞
如圖2-12所示為這兩個網頁的百度快照,可見百度網頁搜索把“搜索引擎優化公司”分別切割成了“搜索引擎優化”“公司”和“搜索引擎優化”“優化公司”,來進行相關度計算。在后面的搜索結果中還有很多網頁都完整地出現了“搜索引擎優化公司”這個詞,但是并沒有排到更靠前的位置。可見如果中文分詞用得好,會為網頁額外增加大量可以匹配的關鍵詞,這樣就可以使網站整體獲得更多的搜索展示機會和流量。
獲取排名的算法:中文分詞
在這個例子中充分體現了分詞技術中的正向最大匹配、逆向最大匹配及最少切分的規律。如前面所述很多SEO人員知道有中文分詞這么回事,但是并不知道怎么運用。如果你還沒有研究過中文分詞,那么現在就開始詳細研究吧,有不懂的問題就百度一下,會有很多詳細的介紹資料。
 
本文出自微笑SEO優化教程網,未經允許不得轉載:獲取排名的算法:中文分詞 http://www.za9bao.com/seoyhjc/248.html
? 撸片av在线观看