Python大批量搜索引擎图像爬虫工具详解

python图像爬虫包

最近在做一些图像分类的任务时，为了扩充我们的数据集，需要在搜索引擎下爬取额外的图片来扩充我们的训练集。搞人工智能真的是太难了😭，居然还要会爬虫。当然网上也有许多python写的爬虫工具，当然，用多了就知道，这些爬虫工具不是不能进行多关键字的爬虫就是用不了，或者是一会就被网站检测到给停止了，最后发现了一款非常好用的python图像爬虫库icrawler，直接就能通过pip进行安装，使用时几行代码就能搞定，简直不要太爽。
话不多说，附上安装命令：

pip install icrawler

下面附上我爬虫的代码：

from icrawler.builtin import BaiduImageCrawlerfrom icrawler.builtin import BingImageCrawlerfrom icrawler.builtin import GoogleImageCrawler#需要爬虫的关键字list_word = [\'抽烟 行人\',\'吸烟 行人\',\'接电话 行人\',\'打电话 行人\', \'玩手机 行人\']for word in list_word:#bing爬虫#保存路径bing_storage = {\'root_dir\': \'bing\\\\\'+word}#从上到下依次是解析器线程数，下载线程数，还有上面设置的保存路径bing_crawler = BingImageCrawler(parser_threads=2,downloader_threads=4,storage=bing_storage)#开始爬虫，关键字+图片数量bing_crawler.crawl(keyword=word,max_num=2000)#百度爬虫# baidu_storage = {\'root_dir\': \'baidu\\\\\' + word}# baidu_crawler = BaiduImageCrawler(parser_threads=2,#                  downloader_threads=4,#                  storage=baidu_storage)# baidu_crawler.crawl(keyword=word,#           max_num=2000)# google爬虫# google_storage = {\'root_dir\': \'‘google\\\\\' + word}# google_crawler = GoogleImageCrawler(parser_threads=4,#                  downloader_threads=4,#                  storage=google_storage)# google_crawler.crawl(keyword=word,#           max_num=2000)

这个爬虫库能够实现多线程，多搜索引擎（百度、必应、谷歌）的爬虫，当然谷歌爬虫需要梯子。这里展示的是基于必应的爬虫，百度和谷歌的代码也在下面，只不过被我屏蔽掉了，当然也可以三个同时全开！这样的python爬虫库用起来简直不要太爽。

到此这篇关于Python大批量搜索引擎图像爬虫工具的文章就介绍到这了,更多相关Python搜索引擎图像爬虫内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

浅谈用Python实现一个大数据搜索引擎
Python搜索引擎实现原理和方法
Python中使用haystack实现django全文检索搜索引擎功能
用python做一个搜索引擎(Pylucene)的实例代码
以Python的Pyspider为例剖析搜索引擎的网络爬虫实现方法
Python爬虫获取页面所有URL链接过程详解

相关推荐

热门文章

热门标签

回顶部