在写爬虫爬取数据的时候,经常会遇到“HTTP Error 403: Forbidden”的提示,其实它只是一个HTTP状态码,表示你在请求一个资源文件但是nginx不允许你查看。不属于技术上的错误,但也需要技术解决。
哪些场景需要返回403状态码的场景?
1、网站禁止特定的用户访问所有内容,例:网站屏蔽某个ip访问。
2、访问禁止目录浏览的目录,例:设置autoindex off后访问目录。
3、用户访问只能被内网访问的文件
以上几种常见的需要返回 403 Forbidden 的场景。
所以为了防止返回403状态码防止爬虫被封,是需要及时更换不同IP,下面记录一下python 使用代理爬取的过程。
直接上代码:
爬虫经验说明:
免费的代理很不太稳定,而且可用率太低,不高匿,安全性不高,如果大量长时间爬取,还是稍微花点小钱使用IP代理商提供的,高效安心。
网络上的爬虫和反爬已经斗争了多年,大数据时代下,数据采集成为技术主流,但是大量的采集爬取受到了各种限制,其中最为常见的就是IP受限,该如何解决代理IP也成为一大关注点。网络爬虫配合IPIDEA,海量的优质可用代理丰富的全球ip资源,高度匿名,保护隐私,保障数据安全才会保证工作效率。