Semalt提供Web爬網工具的測試結果

每個用戶都想使用Web抓取工具時面臨兩個選擇。他們使用現成的網絡刮板或定制刮板。儘管定制刮板是一個更好的選擇,但由於成本高,很多人都避開了它。必須開發該工具以適合您的業務和偏好,因此需要大量工作。

另一方面,現成的網頁抓取工具過於通用,因為它們是為一般的網頁抓取任務而設計的。它們通常在某些Web抓取項目中更勝一籌,而在其他項目中則做得比較差。為了幫助您做出正確的選擇,一些捲筒紙刮板經過了徹底的捲筒紙刮擦測試,結果顯示在下面。

測試標準

網絡抓取工具已針對以下常見數據提取任務進行了測試。他們已經測試了他們收集表格報表,文本列表和登錄表單的能力。此外,還對網絡抓取工具從AJAX構建的動態網頁中提取數據的能力進行了測試。對於許多刮板機來說,這通常是最困難的任務之一。他們處理驗證碼的能力也受到了考驗。最後,對它們處理塊佈局的能力進行了測試。

測試結果

經過測試的Web抓取工具為Content Grabber,Visual Web Ripper,Helium Scraper,Screen Scraper,OutWit Hub,Mozenda,WebSundew Extractor,Web Content提取器和Easy Web Extractor。

結果表明Content Grabber是最好的,因為它在所有測試區域中均表現出色。因此,它獲得了最高的平均評分。還觀察到,所有的Web抓取工具都能夠抓取登錄表單,並且還可以從使用AJAX構建的網頁中抓取數據。因此,如果這是您需要刮板機的兩個原因,則可以選擇其中任何一個。他們在這兩個方面都做得很好。

在性能方面,Content Grabber旁邊的是Visual Web Ripper。它在所有領域的表現都不錯,但不及Content Grabber,因此平均得分為4.5。下一個網絡工具是氦刮刀。它的性能幾乎與Visual Web Ripper一樣。氦刮刀的唯一問題是其在處理塊佈局方面的性能較差。

根據測試結果,網絡抓取工具按以下順序執行:Content Grabber,Visual Web Ripper,氦氣刮板,屏幕刮板,OutWit Hub, Mozenda,WebSundew Extractor,Web Content Extractor和Easy Web Extractor表現最差。

結論

考慮到上面分析的測試結果,Content Grabber在所有測試類別中的得分均為5。因此,這顯然是最好的。您可能也需要嘗試一下。不幸的是,出於不同原因,有兩個刮板刮板退出了測試。 Web Data Extractor和WebHarvy的開發人員將他們的產品退出了測試。

儘管沒有參加測試,但對兩者的了解還是很多。 WebHarvy旨在從格式良好的分頁列表中抓取數據,而Web Data Extractor僅用於收集電子郵件,URL等。