使用HTTP后可以帮我们解决哪些问题?

在写爬虫爬取数据的时候，经常会遇到“HTTP Error 403: Forbidden”的提示,其实它只是一个HTTP状态码，表示你在请求一个资源文件但是nginx不允许你查看。不属于技术上的错误，但也需要技术解决。

哪些场景需要返回403状态码的场景？

1、网站禁止特定的用户访问所有内容，例：网站屏蔽某个ip访问。

2、访问禁止目录浏览的目录，例：设置autoindex off后访问目录。

3、用户访问只能被内网访问的文件

以上几种常见的需要返回 403 Forbidden 的场景。

所以为了防止返回403状态码防止爬虫被封，是需要及时更换不同IP，下面记录一下python 使用代理爬取的过程。

直接上代码：

爬虫经验说明：

免费的代理很不太稳定，而且可用率太低，不高匿，安全性不高，如果大量长时间爬取，还是稍微花点小钱使用IP代理商提供的，高效安心。

网络上的爬虫和反爬已经斗争了多年，大数据时代下，数据采集成为技术主流，但是大量的采集爬取受到了各种限制，其中最为常见的就是IP受限，该如何解决代理IP也成为一大关注点。网络爬虫配合IPIDEA，海量的优质可用代理丰富的全球ip资源，高度匿名，保护隐私，保障数据安全才会保证工作效率。