AI智能
改变未来

Python | 其实爬虫也有套路(附赠书获奖名单)

写在前面

咸鱼的第二次自费赠书活动已经完美落幕,谢谢大家的支持。
本次获奖的幸运儿是:

请以上三位朋友在72小时内联系我选书,逾期没有联系我的,就只好送给其他小伙伴了。

赞赏送书活动也完美落幕了,感谢28位小伙伴的打赏,希望你们能喜欢咸鱼送出的铁粉福利。下次送书,你懂得~

赞赏送书截图

通用爬虫套路

在刚刚接触Python爬虫的时候常常会有无从下手的感觉,于是咸鱼整理了简单爬虫的通用套路,没有思路的时候看一下吧。
准备url

1 . 准备start url

  • 页码总数不确定,规律不明显

  • 通过代码提取下一页地址

    使用xpath提取url

  • 寻找url地址,部分参数在当前页面中,比如当前页码数和总页码数,使用这两个参数构建url

2 . 准备url list

  • 页码总数清楚

  • url 地址规律明显

    发送请求,获取响应

  1. 添加随机user-agent,反反爬虫

  2. 添加随机代理ip,反反爬虫

  3. 在对方判断我们是爬虫之后应该添加更多的headers字段,包含cookie

  4. cookie的处理可以使用session来解决

  5. 准备一堆能用的cookie,组成cookie池。

  6. 如果不登录

      准备刚刚开始能够成功请求的cookie,即接收对方网站设置在response的cookie
  • 如果登录
  • 准备多个账号
  • 使用程序获取每个账号的cookie
  • 请求登录之后才能访问的网站随机选择上一步获取的cookie

提取数据

1 . 确定数据的位置

  • 如果数据在当前的url地址中

  • 提取的是列表页中的数据

    直接请求列表页的url地址,不用进入详情页

  • 提取详情页的数据

      1.确定url

    • 2.发送请求

    • 3.提取数据

    • 4.返回
  • 如果数据不在当前的url地址中

  • 在其他响应中,寻找数据的位置

      在network中从上而下找

    • 使用chrome中的过滤条件,选择除了js,css, image之外的按钮

    • 使用chrome的serach all file,搜索数字和英文

    2 . 数据的提取

    • xpath,从html中提取整块的数据,先分组,之后每一组在提取

    • re,提取max_time,html等

    • json

    保存数据

    • 保存在本地json ,csv,text

    • 保存在数据库

    推荐阅读

    Python | 关于Requests与Json的使用小结

  • 赞(0) 打赏
    未经允许不得转载:爱站程序员基地 » Python | 其实爬虫也有套路(附赠书获奖名单)