当前位置：爱站程序员基地 > 全栈知识 > Python开发 > 正文

Python | 其实爬虫也有套路(附赠书获奖名单)

2021-06-06 分类：Python开发评论(0)

写在前面

咸鱼的第二次自费赠书活动已经完美落幕，谢谢大家的支持。
本次获奖的幸运儿是：

请以上三位朋友在72小时内联系我选书，逾期没有联系我的，就只好送给其他小伙伴了。

赞赏送书活动也完美落幕了，感谢28位小伙伴的打赏，希望你们能喜欢咸鱼送出的铁粉福利。下次送书，你懂得~

赞赏送书截图

通用爬虫套路

在刚刚接触Python爬虫的时候常常会有无从下手的感觉，于是咸鱼整理了简单爬虫的通用套路，没有思路的时候看一下吧。
准备url

1 . 准备start url

页码总数不确定，规律不明显
通过代码提取下一页地址

使用xpath提取url
寻找url地址，部分参数在当前页面中，比如当前页码数和总页码数，使用这两个参数构建url

2 . 准备url list

页码总数清楚
url 地址规律明显

发送请求，获取响应

添加随机user-agent，反反爬虫
添加随机代理ip，反反爬虫
在对方判断我们是爬虫之后应该添加更多的headers字段，包含cookie
cookie的处理可以使用session来解决
准备一堆能用的cookie，组成cookie池。
如果不登录

如果登录
准备多个账号
使用程序获取每个账号的cookie
请求登录之后才能访问的网站随机选择上一步获取的cookie

提取数据

1 . 确定数据的位置

如果数据在当前的url地址中
提取的是列表页中的数据

直接请求列表页的url地址，不用进入详情页

提取详情页的数据

1.确定url

2.发送请求
3.提取数据
4.返回

如果数据不在当前的url地址中

在其他响应中，寻找数据的位置

在network中从上而下找

使用chrome中的过滤条件，选择除了js，css, image之外的按钮
使用chrome的serach all file，搜索数字和英文

2 . 数据的提取

xpath，从html中提取整块的数据，先分组，之后每一组在提取
re，提取max_time，html等
json

保存数据

保存在本地json ，csv，text
保存在数据库

推荐阅读

Python | 关于Requests与Json的使用小结

赞(0) 打赏

未经允许不得转载：爱站程序员基地 » Python | 其实爬虫也有套路(附赠书获奖名单)

标签：Python开发

相关推荐

回顶
回顶部