
正規(guī)石家莊網絡推廣實際上用戶并不需要知道所有匹配的幾十萬、幾百萬個頁面,絕大部分用戶只會查看前兩頁,也就是前20個結果。搜索引擎也并不需要計算這么多頁面的相關性,而只要計算Z重要的一部分頁面就可以了。常用搜索引擎的人都會注意到,搜索結果頁面通常Z多顯示100個。石家莊網絡推廣哪家好用戶點擊搜索結果頁面底部的“下一頁”鏈接,Z多也只能看到第100頁,也就是1000個搜索結果但問題在于,還沒有計算相關性時,搜索引擎又怎么知道哪一千個文件是晟相關的?所以用于Z后相關性計算的初始頁面子集的選擇,必須依靠其他特征而不是相關性,其中Z主要的就是頁面權重。

正規(guī)石家莊網絡推廣這里的關鍵詞選取是在分詞、去停止詞、消噪之后。實驗表明,通常選取10個特征關鍵詞就可以達到比較高的計算準確性,再選取更多詞對去重準確性提高的貢獻也就不大了。典型的指紋計算方法如MD5算法(信息摘要算法第五版)。石家莊網絡推廣哪家好這類指紋算法的特點是,輸入(特征關鍵詞)有任何微小的變化,都會導致計算出的指紋有很大差距。了解了搜索引擎的去重算法,網站優(yōu)化人員就應該知道簡單地“的”、“地”、“得”、調換段落順序這種所謂偽原創(chuàng),并不能逃過搜索引擎的去重算法,因為這樣的操作無法改變文章的特征關鍵詞。

正規(guī)石家莊網絡推廣正向索引還不能直接用于排名。假設用戶搜索關鍵詞2,如果只存在正向索引,排名程序需要掃描所有索引庫中的文件,找出包含關鍵詞2的文件,再進行相關性計算。這樣的計算量無法滿足實時返回排名結果的要求。石家莊網絡推廣哪家好所以搜索引擎會將正向索引數據庫重新構造為倒排索引,把文件對應到關鍵詞的映射轉換為關鍵詞到文件的映射,在倒排索引中關鍵詞是主鍵,每介關鍵詞都對應著一系列文件,這些文件中都出現(xiàn)了這個關鍵詞。這樣當用戶搜索某個關鍵詞時,排序程序在倒排索引中定位到這個關鍵詞,就可以馬上找出所有包含這個關鍵詞的文件。

正規(guī)石家莊網絡推廣鏈接關系計算也是預處理中很重要的一部分?,F(xiàn)在所有的主流搜索引擎排名因素中都包含網頁之間的鏈接流動信息。搜索引擎在抓取頁面內容后,必須事前計算出:頁面上有哪些鏈接指向哪些其他頁面,每個頁面有哪些導入鏈接,鏈接使用了什么錨文字,石家莊網絡推廣哪家好這些復雜的鏈接指向關系形成了網站和頁面的鏈接權重。Google PR值就是這種鏈接關系的Z主要體現(xiàn)之一。其他搜索引擎也都進行類似計算,雖然它們并不稱為PR。