網絡爬蟲常用到的算法
1、深度優先算法
該算法是指網絡爬蟲會從選定的一個超鏈接開始,按照一條線路,一個一個鏈接訪問下去,直到達到這條線路的葉子節點,即不包含任何超鏈接的HTML文件,處理完這條線路之后再轉入下一個起始頁,繼續訪問新的起始頁面所包含的鏈接中的一條,直到到達葉子結點。這個方法有個優點是網絡爬蟲在設計的時候比較容易。
2、廣度優先算法
廣度優先算法是指網絡爬蟲會先抓取起始網頁中包含鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在這個網頁中鏈接的所有網頁。這種搜索方法是實現通用網絡爬蟲的最佳方法,因為它的特點是易于實現,并且能夠避免陷進一個無窮盡的深層分支中去,可以讓網絡爬蟲并行處理,從而提高其抓取速度。
3、啟發式搜索算法
源于人工智能,即先通過在線獲得的領域知識評價待訪問鏈接的價值,借以推斷信息資源的分布情況,然后按一定的原則選擇價值最大的鏈接進行下一步的搜索,找到到達目標節點的最佳路徑,刪除不好節點,保留那些好的節點,該算法主要用于主題爬蟲。
網絡爬蟲的分析算法
爬蟲節點爬取到的網頁數據會存放到資源庫中,資源庫對爬取到的數據進行分析并建立索引,分析算法有以下幾種:
(1)基于用戶行為的分析算法:根據用戶對網頁的訪問頻率、訪問時長、點擊率等對網頁數據進行分析。
(2)基于網絡拓撲的分析算法:根據網頁的外鏈、網頁的層次、網頁的等級等對網頁數據進行分析,計算出網頁的權重,對網頁進行排名。
(3)基于網頁內容的分析算法:根據網頁的外觀、網頁的文本等內容特征對網頁數據進行分析。
-
網絡爬蟲
+關注
關注
1文章
52瀏覽量
8845 -
爬蟲
+關注
關注
0文章
83瀏覽量
7270
發布評論請先 登錄
相關推薦
評論