先說說獲取數據的方式:一是利用現成的工具,我們只需懂得如何使用工具就能獲取數據,不需要關心工具是怎麼實現。打個比方,假如我們在岸上,要去海上某個小島,岸邊有一艘船,我們第一想法是選擇坐船過去,而不會想著自己來造一艘船再過去。
第二種是自己針對場景需求做些定製化工具,這就需要有點編程基礎。舉個例子,我們還是要到海上某個小島,同時還要求在 30 分鐘內將 1 頓貨物送到島上。
因此,前期只是單純想獲取數據,沒有什麼其他要求的話,優先選擇現有工具。
可能是 Python 近來年很火,加上我們會經常看到別人用 Python 來製作網絡爬蟲抓取數據。從而有一些同學有這樣的誤區,想從網絡上抓取數據就一定要學 Python,一定要去寫代碼。
其實不然,本文介紹幾個能快速獲取網上數據的工具。
01 Microsoft Excel
你沒有看錯,就是 Office 三劍客之一的 Excel。Excel 是一個強大的工具,能抓取數據就是它的功能之一。我以耳機作為關鍵字,抓取京東的商品列表。
等待幾秒後,Excel 會將頁面上所有的文字信息抓取到表格中。這種方式確實能抓取到數據,但也會引入一些我們不需要的數據。如果你有更高的需求,可以選擇後面幾個工具。
02 火車頭採集器
火車頭是爬蟲界的老品牌了,是目前使用人數最多的互聯網數據抓取、處理、分析、挖掘軟件。它的優勢是採集不限網頁,不限內容,同時還是分佈式採集,效率會高一些。缺點是對小白用戶不是很友好,有一定的知識門檻(瞭解如網頁知識、HTTP 協議等方面知識),還需要花些時間熟悉工具操作。
因為有學習門檻,掌握該工具之後,採集數據上限會很高。有時間和精力的同學可以去折騰折騰。
03 八爪魚採集器
八爪魚採集器是一款非常適合新手的採集器。它具有簡單易用的特點,讓你能幾分鐘中就快手上手。八爪魚提供一些常見抓取網站的模板,使用模板就能快速抓取數據。如果想抓取沒有模板的網站,官網也提供非常詳細的圖文教程和視頻教程。
八爪魚是基於瀏覽器內核實現可視化抓取數據,所以存在卡頓、採集數據慢的特點。但這瑕不掩瑜,能基本滿足新手在短時間抓取數據的場景,比如翻頁查詢,Ajax 動態加載數據等。
04 GooSeeker 集搜客
集搜客也是一款容易上手的可視化採集數據工具。同樣能抓取動態網頁,也支持可以抓取手機網站上的數據,還支持抓取在指數圖表上懸浮顯示的數據。集搜客是以瀏覽器插件形式抓取數據。雖然具有前面所述的有點,但缺點也有,無法多線程採集數據,出現瀏覽器卡頓也在所難免。
05 Scrapinghub
如果你想抓取國外的網站數據,可以考慮 Scrapinghub。Scrapinghub 是一個基於Python 的 Scrapy 框架的雲爬蟲平臺。Scrapehub 算是市場上非常複雜和強大的網絡抓取平臺,提供數據抓取的解決方案商。
06 WebScraper
WebScraper 是一款優秀國外的瀏覽器插件。同樣也是一款適合新手抓取數據的可視化工具。我們通過簡單設置一些抓取規則,剩下的就交給瀏覽器去工作。
地址:https://webscraper.io/