魔天记忘语小说,长生界辰东小说,盛世嫡妃凤轻小说

要玩大數(shù)據(jù)，沒有數(shù)據(jù)怎么玩？這里推薦一些33款開源爬蟲軟件給大家。

爬蟲，即網(wǎng)絡爬蟲，是一種自動獲取網(wǎng)頁內容的程序。是搜索引擎的重要組成部分，因此搜索引擎優(yōu)化很大程度上就是針對爬蟲而做出的優(yōu)化。

網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊列。然后，它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL，并重復上述過程，直到達到系統(tǒng)的某一條件時停止。另外，所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯，進行一定的分析、過濾，并建立索引，以便之后的查詢和檢索；對于聚焦爬蟲來說，這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。

世界上已經(jīng)成型的爬蟲軟件多達上百種，本文對較為知名及常見的開源爬蟲軟件進行梳理，按開發(fā)語言進行匯總。雖然搜索引擎也有爬蟲，但本次我匯總的只是爬蟲軟件，而非大型、復雜的搜索引擎，因為很多兄弟只是想爬取數(shù)據(jù)，而非運營一個搜索引擎。

Java爬蟲

1、Arachnid

Arachnid是一個基于Java的web spider框架.它包含一個簡單的HTML剖析器能夠分析包含HTML內容的輸入流.通過實現(xiàn)Arachnid的子類就能夠開發(fā)一個簡單的Web spiders并能夠在Web站上的每個頁面被解析之后增加幾行代碼調用。 Arachnid的下載包中包含兩個spider應用程序例子用于演示如何使用該框架。

特點：微型爬蟲框架，含有一個小型HTML解析器

許可證：GPL

2、crawlzilla

crawlzilla 是一個幫你輕松建立搜索引擎的自由軟件，有了它，你就不用依靠商業(yè)公司的搜索引擎，也不用再煩惱公司內部網(wǎng)站資料索引的問題。

由 nutch 專案為核心，并整合更多相關套件，并卡發(fā)設計安裝與管理UI，讓使用者更方便上手。

crawlzilla除了爬取基本的 html 外，還能分析網(wǎng)頁上的文件，如（ doc、pdf、ppt、ooo、rss ）等多種文件格式，讓你的搜索引擎不只是網(wǎng)頁搜索引擎，而是網(wǎng)站的完整資料索引庫。

擁有中文分詞能力，讓你的搜索更精準。

crawlzilla的特色與目標，最主要就是提供使用者一個方便好用易安裝的搜索平臺。

授權協(xié)議： Apache License 2

開發(fā)語言： Java JavaScript SHELL

操作系統(tǒng)： Linux

項目主頁：https://github.com/shunfa/crawlzilla

下載地址：http://sourceforge.net/projects/crawlzilla/

特點：安裝簡易，擁有中文分詞功能

3、Ex-Crawler

Ex-Crawler 是一個網(wǎng)頁爬蟲，采用 Java 開發(fā)，該項目分成兩部分，一個是守護進程，另外一個是靈活可配置的 Web 爬蟲。使用數(shù)據(jù)庫存儲網(wǎng)頁信息。

授權協(xié)議： GPLv3

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

特點：由守護進程執(zhí)行，使用數(shù)據(jù)庫存儲網(wǎng)頁信息

4、Heritrix

Heritrix 是一個由 java 開發(fā)的、開源的網(wǎng)絡爬蟲，用戶可以使用它來從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性，方便用戶實現(xiàn)自己的抓取邏輯。

Heritrix采用的是模塊化的設計，各個模塊由一個控制器類（CrawlController類）來協(xié)調，控制器是整體的核心。

代碼托管：https://github.com/internetarchive/heritrix3

授權協(xié)議： Apache

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

特點：嚴格遵照robots文件的排除指示和META robots標簽

5、heyDr

heyDr是一款基于java的輕量級開源多線程垂直檢索爬蟲框架，遵循GNU GPL V3協(xié)議。

用戶可以通過heyDr構建自己的垂直資源爬蟲，用于搭建垂直搜索引擎前期的數(shù)據(jù)準備。

授權協(xié)議： GPLv3

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

特點：輕量級開源多線程垂直檢索爬蟲框架

6、ItSucks

ItSucks是一個java web spider（web機器人，爬蟲）開源項目。支持通過下載模板和正則表達式來定義下載規(guī)則。提供一個swing GUI操作界面。

特點：提供swing GUI操作界面

7、jcrawl

jcrawl是一款小巧性能優(yōu)良的的web爬蟲,它可以從網(wǎng)頁抓取各種類型的文件,基于用戶定義的符號，比如email、qq。

授權協(xié)議： Apache

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

特點：輕量、性能優(yōu)良，可以從網(wǎng)頁抓取各種類型的文件

8、JSpider

JSpider是一個用Java實現(xiàn)的WebSpider，JSpider的執(zhí)行格式如下：

jspider [URL][ConfigName]

URL一定要加上協(xié)議名稱，如：http://，否則會報錯。如果省掉ConfigName，則采用默認配置。

JSpider的行為是由配置文件具體配置的，比如采用什么插件，結果存儲方式等等都在conf[ConfigName]目錄下設置。JSpider默認的配置種類很少，用途也不大。但是JSpider非常容易擴展，可以利用它開發(fā)強大的網(wǎng)頁抓取與數(shù)據(jù)分析工具。要做到這些，需要對JSpider的原理有深入的了解，然后根據(jù)自己的需求開發(fā)插件，撰寫配置文件。

授權協(xié)議： LGPL

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

特點：功能強大，容易擴展

9、Leopdo

用JAVA編寫的web 搜索和爬蟲，包括全文和分類垂直搜索，以及分詞系統(tǒng)

授權協(xié)議： Apache

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

特點：包括全文和分類垂直搜索，以及分詞系統(tǒng)

10、MetaSeeker

是一套完整的網(wǎng)頁內容抓取、格式化、數(shù)據(jù)集成、存儲管理和搜索解決方案。

網(wǎng)絡爬蟲有多種實現(xiàn)方法，如果按照部署在哪里分，可以分成：

（1）服務器側：一般是一個多線程程序，同時下載多個目標HTML，可以用PHP， Java, Python(當前很流行）等做，可以速度做得很快，一般綜合搜索引擎的爬蟲這樣做。但是，如果對方討厭爬蟲，很可能封掉你的IP，服務器IP又不容易改，另外耗用的帶寬也是挺貴的。建議看一下Beautiful soap。

（2）客戶端：一般實現(xiàn)定題爬蟲，或者是聚焦爬蟲，做綜合搜索引擎不容易成功，而垂直搜訴或者比價服務或者推薦引擎，相對容易很多，這類爬蟲不是什么頁面都取的，而是只取你關系的頁面，而且只取頁面上關心的內容，例如提取黃頁信息，商品價格信息，還有提取競爭對手廣告信息的，搜一下Spyfu，很有趣。這類爬蟲可以部署很多，而且可以很有侵略性，對方很難封鎖。

MetaSeeker中的網(wǎng)絡爬蟲就屬于后者。

MetaSeeker工具包利用Mozilla平臺的能力，只要是Firefox看到的東西，它都能提取。

MetaSeeker工具包是免費使用的，下載地址：www.gooseeker.com/cn/node/download/front

特點：網(wǎng)頁抓取、信息提取、數(shù)據(jù)抽取工具包，操作簡單

11、Playfish

playfish是一個采用java技術，綜合應用多個開源java組件實現(xiàn)的網(wǎng)頁抓取工具，通過XML配置文件實現(xiàn)高度可定制性與可擴展性的網(wǎng)頁抓取工具

應用開源jar包包括httpclient(內容讀取),dom4j（配置文件解析）,jericho（html解析），已經(jīng)在 war包的lib下。

這個項目目前還很不成熟，但是功能基本都完成了。要求使用者熟悉XML，熟悉正則表達式。目前通過這個工具可以抓取各類論壇，貼吧，以及各類CMS系統(tǒng)。像Discuz!,phpbb,論壇跟博客的文章，通過本工具都可以輕松抓取。抓取定義完全采用XML，適合Java開發(fā)人員使用。

使用方法：1.下載右邊的.war包導入到eclipse中， 2.使用WebContent/sql下的wcc.sql文件建立一個范例數(shù)據(jù)庫， 3.修改src包下wcc.core的dbConfig.txt，將用戶名與密碼設置成你自己的mysql用戶名密碼。 4.然后運行SystemCore,運行時候會在控制臺，無參數(shù)會執(zhí)行默認的example.xml的配置文件，帶參數(shù)時候名稱為配置文件名。

系統(tǒng)自帶了3個例子，分別為baidu.xml抓取百度知道，example.xml抓取我的javaeye的博客，bbs.xml抓取一個采用 discuz論壇的內容。

授權協(xié)議： MIT

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

特點：通過XML配置文件實現(xiàn)高度可定制性與可擴展性

12、Spiderman

Spiderman 是一個基于微內核+插件式架構的網(wǎng)絡蜘蛛，它的目標是通過簡單的方法就能將復雜的目標網(wǎng)頁信息抓取并解析為自己所需要的業(yè)務數(shù)據(jù)。

怎么使用？

首先，確定好你的目標網(wǎng)站以及目標網(wǎng)頁（即某一類你想要獲取數(shù)據(jù)的網(wǎng)頁，例如網(wǎng)易新聞的新聞頁面）

然后，打開目標頁面，分析頁面的HTML結構，得到你想要數(shù)據(jù)的XPath，具體XPath怎么獲取請看下文。

最后，在一個xml配置文件里填寫好參數(shù)，運行Spiderman吧！

授權協(xié)議： Apache

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

特點：靈活、擴展性強，微內核+插件式架構，通過簡單的配置就可以完成數(shù)據(jù)抓取，無需編寫一句代碼

13、webmagic

webmagic的是一個無須配置、便于二次開發(fā)的爬蟲框架，它提供簡單靈活的API，只需少量代碼即可實現(xiàn)一個爬蟲。

webmagic采用完全模塊化的設計，功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化)，支持多線程抓取，分布式抓取，并支持自動重試、自定義UA/cookie等功能。

webmagic包含強大的頁面抽取功能，開發(fā)者可以便捷的使用css selector、xpath和正則表達式進行鏈接和內容的提取，支持多個選擇器鏈式調用。

webmagic的使用文檔：

http://webmagic.io/docs/

查看源代碼：

http://git.oschina.net/flashsword20/webmagic

授權協(xié)議： Apache

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

特點：功能覆蓋整個爬蟲生命周期，使用Xpath和正則表達式進行鏈接和內容的提取。

備注：這是一款國產(chǎn)開源軟件，由黃億華貢獻

14、Web-Harvest

Web-Harvest是一個Java開源Web數(shù)據(jù)抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有用的數(shù)據(jù)。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現(xiàn)對text/xml的操作。

其實現(xiàn)原理是，根據(jù)預先定義的配置文件用httpclient獲取頁面的全部內容（關于httpclient的內容，本博有些文章已介紹），然后運用XPath、XQuery、正則表達式等這些技術來實現(xiàn)對text/xml的內容篩選操作，選取精確的數(shù)據(jù)。前兩年比較火的垂直搜索（比如：酷訊等）也是采用類似的原理實現(xiàn)的。Web-Harvest應用，關鍵就是理解和定義配置文件，其他的就是考慮怎么處理數(shù)據(jù)的Java代碼。當然在爬蟲開始前，也可以把Java變量填充到配置文件中，實現(xiàn)動態(tài)的配置。

授權協(xié)議： BSD

開發(fā)語言： Java

特點：運用XSLT、XQuery、正則表達式等技術來實現(xiàn)對Text或XML的操作，具有可視化的界面

15、WebSPHINX

WebSPHINX是一個Java類包和Web爬蟲的交互式開發(fā)環(huán)境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成：爬蟲工作平臺和WebSPHINX類包。

授權協(xié)議：Apache

開發(fā)語言：Java

特點：由兩部分組成：爬蟲工作平臺和WebSPHINX類包

16、YaCy

YaCy基于p2p的分布式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基于p2p Web索引網(wǎng)絡的一個新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的網(wǎng)頁或啟動分布式Crawling等.

授權協(xié)議： GPL

開發(fā)語言： Java Perl

操作系統(tǒng)：跨平臺

特點：基于P2P的分布式Web搜索引擎

Python爬蟲

17、QuickRecon

QuickRecon是一個簡單的信息收集工具,它可以幫助你查找子域名名稱、perform zone transfe、收集電子郵件地址和使用microformats尋找人際關系等。QuickRecon使用python編寫，支持linux和 windows操作系統(tǒng)。

授權協(xié)議： GPLv3

開發(fā)語言： Python

操作系統(tǒng)： Windows Linux

特點：具有查找子域名名稱、收集電子郵件地址并尋找人際關系等功能

18、PyRailgun

這是一個非常簡單易用的抓取工具。支持抓取javascript渲染的頁面的簡單實用高效的python網(wǎng)頁爬蟲抓取模塊

授權協(xié)議： MIT

開發(fā)語言： Python

操作系統(tǒng)：跨平臺 Windows Linux OS X

特點：簡潔、輕量、高效的網(wǎng)頁抓取框架

備注：此軟件也是由國人開放

github下載：

https://github.com/princehaku/pyrailgun#readme

19、Scrapy

Scrapy 是一套基于基于Twisted的異步處理框架，純python實現(xiàn)的爬蟲框架，用戶只需要定制開發(fā)幾個模塊就可以輕松的實現(xiàn)一個爬蟲，用來抓取網(wǎng)頁內容以及各種圖片，非常之方便～

授權協(xié)議： BSD

開發(fā)語言： Python

操作系統(tǒng)：跨平臺

github源代碼：https://github.com/scrapy/scrapy

特點：基于Twisted的異步處理框架，文檔齊全

C++爬蟲

20、hispider

HiSpider is a fast and high performance spider with high speed

嚴格說只能是一個spider系統(tǒng)的框架,沒有細化需求,目前只是能提取URL, URL排重,異步DNS解析,隊列化任務,支持N機分布式下載,支持網(wǎng)站定向下載(需要配置hispiderd.ini whitelist).

特征和用法:

基于unix/linux系統(tǒng)的開發(fā)

異步DNS解析

URL排重

支持HTTP 壓縮編碼傳輸 gzip/deflate

字符集判斷自動轉換成UTF-8編碼

文檔壓縮存儲

支持多下載節(jié)點分布式下載

支持網(wǎng)站定向下載(需要配置 hispiderd.ini whitelist )

可通過 http://127.0.0.1:3721/查看下載情況統(tǒng)計,下載任務控制(可停止和恢復任務)

依賴基本通信庫libevbase 和 libsbase (安裝的時候需要先安裝這個兩個庫).

工作流程:

從中心節(jié)點取URL(包括URL對應的任務號, IP和port,也可能需要自己解析)

連接服務器發(fā)送請求

等待數(shù)據(jù)頭判斷是否需要的數(shù)據(jù)(目前主要取text類型的數(shù)據(jù))

等待完成數(shù)據(jù)(有l(wèi)ength頭的直接等待說明長度的數(shù)據(jù)否則等待比較大的數(shù)字然后設置超時)

數(shù)據(jù)完成或者超時, zlib壓縮數(shù)據(jù)返回給中心服務器,數(shù)據(jù)可能包括自己解析DNS信息,壓縮后數(shù)據(jù)長度+壓縮后數(shù)據(jù),如果出錯就直接返回任務號以及相關信息

中心服務器收到帶有任務號的數(shù)據(jù),查看是否包括數(shù)據(jù),如果沒有數(shù)據(jù)直接置任務號對應的狀態(tài)為錯誤,如果有數(shù)據(jù)提取數(shù)據(jù)種link 然后存儲數(shù)據(jù)到文檔文件.

完成后返回一個新的任務.

授權協(xié)議： BSD

開發(fā)語言： C/C++

操作系統(tǒng)： Linux

特點：支持多機分布式下載,支持網(wǎng)站定向下載

21、larbin

larbin是一種開源的網(wǎng)絡爬蟲/網(wǎng)絡蜘蛛，由法國的年輕人 Sébastien Ailleret獨立開發(fā)。larbin目的是能夠跟蹤頁面的url進行擴展的抓取，最后為搜索引擎提供廣泛的數(shù)據(jù)來源。Larbin只是一個爬蟲，也就是說larbin只抓取網(wǎng)頁，至于如何parse的事情則由用戶自己完成。另外，如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。一個簡單的larbin的爬蟲可以每天獲取５００萬的網(wǎng)頁。

利用larbin，我們可以輕易的獲取/確定單個網(wǎng)站的所有鏈接，甚至可以鏡像一個網(wǎng)站；也可以用它建立url 列表群，例如針對所有的網(wǎng)頁進行 url retrive后，進行xml的聯(lián)結的獲取。或者是 mp3，或者定制larbin，可以作為搜索引擎的信息的來源。

授權協(xié)議： GPL

開發(fā)語言： C/C++

操作系統(tǒng)： Linux

特點：高性能的爬蟲軟件，只負責抓取不負責解析

22、Methabot

Methabot 是一個經(jīng)過速度優(yōu)化的高可配置的 WEB、FTP、本地文件系統(tǒng)的爬蟲軟件。

授權協(xié)議：未知

開發(fā)語言： C/C++

操作系統(tǒng)： Windows Linux

特點：過速度優(yōu)化、可抓取WEB、FTP及本地文件系統(tǒng)

源代碼：

http://www.oschina.net/code/tag/methabot

C#爬蟲

23、NWebCrawler

NWebCrawler是一款開源，C#開發(fā)網(wǎng)絡爬蟲程序。

特性：

可配置：線程數(shù)，等待時間，連接超時，允許MIME類型和優(yōu)先級，下載文件夾。

統(tǒng)計信息：URL數(shù)量，總下載文件，總下載字節(jié)數(shù)，CPU利用率和可用內存。

Preferential crawler：用戶可以設置優(yōu)先級的MIME類型。

Robust: 10+ URL normalization rules, crawler trap avoiding rules.

授權協(xié)議： GPLv2

開發(fā)語言： C#

操作系統(tǒng)： Windows

項目主頁：http://www.open-open.com/lib/view/home/1350117470448

特點：統(tǒng)計信息、執(zhí)行過程可視化

24、Sinawler

國內第一個針對微博數(shù)據(jù)的爬蟲程序！原名“新浪微博爬蟲”。

登錄后，可以指定用戶為起點，以該用戶的關注人、粉絲為線索，延人脈關系搜集用戶基本信息、微博數(shù)據(jù)、評論數(shù)據(jù)。

該應用獲取的數(shù)據(jù)可作為科研、與新浪微博相關的研發(fā)等的數(shù)據(jù)支持，但請勿用于商業(yè)用途。該應用基于.NET2.0框架，需SQL SERVER作為后臺數(shù)據(jù)庫，并提供了針對SQL Server的數(shù)據(jù)庫腳本文件。

另外，由于新浪微博API的限制，爬取的數(shù)據(jù)可能不夠完整（如獲取粉絲數(shù)量的限制、獲取微博數(shù)量的限制等）

本程序版權歸作者所有。你可以免費:拷貝、分發(fā)、呈現(xiàn)和表演當前作品,制作派生作品。你不可將當前作品用于商業(yè)目的。

5.x版本已經(jīng)發(fā)布！該版本共有6個后臺工作線程：爬取用戶基本信息的機器人、爬取用戶關系的機器人、爬取用戶標簽的機器人、爬取微博內容的機器人、爬取微博評論的機器人，以及調節(jié)請求頻率的機器人。更高的性能！最大限度挖掘爬蟲潛力！以現(xiàn)在測試的結果看，已經(jīng)能夠滿足自用。

本程序的特點：

6個后臺工作線程，最大限度挖掘爬蟲性能潛力！

界面上提供參數(shù)設置，靈活方便

拋棄app.config配置文件，自己實現(xiàn)配置信息的加密存儲，保護數(shù)據(jù)庫帳號信息

自動調整請求頻率，防止超限，也避免過慢，降低效率

任意對爬蟲控制，可隨時暫停、繼續(xù)、停止爬蟲

良好的用戶體驗

授權協(xié)議： GPLv3

開發(fā)語言： C#.NET

操作系統(tǒng)： Windows

25、spidernet

spidernet是一個以遞歸樹為模型的多線程web爬蟲程序,支持text/html資源的獲取.可以設定爬行深度,最大下載字節(jié)數(shù)限制,支持gzip解碼,支持以gbk(gb2312)和utf8編碼的資源;存儲于sqlite數(shù)據(jù)文件.

源碼中TODO:標記描述了未完成功能,希望提交你的代碼.

授權協(xié)議： MIT

開發(fā)語言： C#

操作系統(tǒng)： Windows

github源代碼：https://github.com/nsnail/spidernet

特點：以遞歸樹為模型的多線程web爬蟲程序，支持以GBK (gb2312)和utf8編碼的資源，使用sqlite存儲數(shù)據(jù)

26、Web Crawler

mart and Simple Web Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個鏈接或一個鏈接數(shù)組開始，提供兩種遍歷模式：最大迭代和最大深度。可以設置過濾器限制爬回來的鏈接，默認提供三個過濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter，這三個過濾器可用AND、OR和NOT聯(lián)合。在解析過程或頁面加載前后都可以加監(jiān)聽器。介紹內容來自Open-Open

開發(fā)語言： Java

操作系統(tǒng)：跨平臺

授權協(xié)議： LGPL

特點：多線程，支持抓取PDF/DOC/EXCEL等文檔來源

27、網(wǎng)絡礦工

網(wǎng)站數(shù)據(jù)采集軟件網(wǎng)絡礦工采集器（原soukey采摘）

Soukey采摘網(wǎng)站數(shù)據(jù)采集軟件是一款基于.Net平臺的開源軟件，也是網(wǎng)站數(shù)據(jù)采集軟件類型中唯一一款開源軟件。盡管Soukey采摘開源，但并不會影響軟件功能的提供，甚至要比一些商用軟件的功能還要豐富。

授權協(xié)議： BSD

開發(fā)語言： C#.NET

操作系統(tǒng)： Windows

特點：功能豐富，毫不遜色于商業(yè)軟件

PHP爬蟲

28、OpenWebSpider

OpenWebSpider是一個開源多線程Web Spider（robot：機器人，crawler：爬蟲)和包含許多有趣功能的搜索引擎。

授權協(xié)議：未知

開發(fā)語言： PHP

操作系統(tǒng)：跨平臺

特點：開源多線程網(wǎng)絡爬蟲，有許多有趣的功能

29、PhpDig

PhpDig是一個采用PHP開發(fā)的Web爬蟲和搜索引擎。通過對動態(tài)和靜態(tài)頁面進行索引建立一個詞匯表。當搜索查詢時，它將按一定的排序規(guī)則顯示包含關鍵字的搜索結果頁面。PhpDig包含一個模板系統(tǒng)并能夠索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用于專業(yè)化更強、層次更深的個性化搜索引擎，利用它打造針對某一領域的垂直搜索引擎是最好的選擇。

演示：http://www.phpdig.net/navigation.php?action=demo

授權協(xié)議： GPL

開發(fā)語言： PHP

操作系統(tǒng)：跨平臺

特點：具有采集網(wǎng)頁內容、提交表單功能

30、ThinkUp

ThinkUp 是一個可以采集推特，facebook等社交網(wǎng)絡數(shù)據(jù)的社會媒體視角引擎。通過采集個人的社交網(wǎng)絡賬號中的數(shù)據(jù)，對其存檔以及處理的交互分析工具，并將數(shù)據(jù)圖形化以便更直觀的查看。

授權協(xié)議： GPL

開發(fā)語言： PHP

操作系統(tǒng)：跨平臺

github源碼：https://github.com/ThinkUpLLC/ThinkUp

特點：采集推特、臉譜等社交網(wǎng)絡數(shù)據(jù)的社會媒體視角引擎，可進行交互分析并將結果以可視化形式展現(xiàn)

31、微購

微購社會化購物系統(tǒng)是一款基于ThinkPHP框架開發(fā)的開源的購物分享系統(tǒng)，同時它也是一套針對站長、開源的的淘寶客網(wǎng)站程序，它整合了淘寶、天貓、淘寶客等300多家商品數(shù)據(jù)采集接口，為廣大的淘寶客站長提供傻瓜式淘客建站服務，會HTML就會做程序模板，免費開放下載，是廣大淘客站長的首選。

演示網(wǎng)址：http://tlx.wego360.com

授權協(xié)議： GPL

開發(fā)語言： PHP

操作系統(tǒng)：跨平臺

ErLang爬蟲

32、Ebot

Ebot 是一個用 ErLang 語言開發(fā)的可伸縮的分布式網(wǎng)頁爬蟲，URLs被保存在數(shù)據(jù)庫中可通過 RESTful 的 HTTP 請求來查詢。

授權協(xié)議： GPLv3

開發(fā)語言： ErLang

操作系統(tǒng)：跨平臺

github源代碼：https://github.com/matteoredaelli/ebot

項目主頁：http://www.redaelli.org/matteo/blog/projects/ebot