前言
20年的疫情,遇上考研调剂,各种不确定性,搞得自己很烦躁,那个时候就想着找个事情做一做。朋友圈太多的Python广告,不得不走进Python折腾一番,当时过了一遍,但是,最近感觉学了之后没有将其应用到生活当中去,就决心整理下笔记,达到巩固目的。
本文是基于Python网络爬虫与信息提取(MOOC)学习所得,一起进步
The Website is The API …
Requests
- 自动爬取HTML页面
- 自动网络请求提示
robots.txt
- 网络爬虫排除标准
Beautiful Soup
- 解析HTML页面
Re
- 正则表达式详解
- 提取页面关键信息
projects
- 实战项目A/B
Scrapy*
- 网络爬虫原理介绍
- 专业爬虫框架介绍
本系列笔记有的实例(学习完附链接)
- 京东商品页面的爬取
- 亚马逊商品页面的爬取
- 百度/360搜索关键字提交
- 网络图片的爬取和存储
- I P地址归属地的自动查询
- 中国大学排名定向爬虫
- 淘宝商品比价定向爬虫
- 股票数据定向爬虫
- 股票数据专业爬虫
- 表情包专业爬虫
Python语言开发工具(IDE)
选择一个适合自己的工具,表格中的黑体是本课程使用的工具
文本工具类IDE | 集成工具类IDE |
---|---|
IDLE | PyCharm |
Notepad++ | Wing |
Sublime Text | PyDev & Eclipse |
Vim & Emacs | Visual Studio |
Atom | Anaconda & Spyder |
Komodo Edit | Canopy |
IDLE
- 分为交互式和文件式
- 适用于Python入门
- 功能简单直接
- 300+代码以内
Sublime Text
- 专门为程序员开发的第三方专用编程工具
- 专业编程体验
- 多种编程风格
- 工具非注册免费试用
Wing
- 公司维护,工具收费
- 调试功能丰富
- 版本控制,版本同步
- 适合多人共同开发
Visual Studio & PTVS
PTVS - 微软公司维护
- win环境为主
- 调试功能丰富
Eclipse
pyDev
- 开源IDE开发工具
- 早年是为Java程序员开发的,需要用户自定义,因此使用者需要具有一定的开发经验
PyCharm
- 社区版免费
- 简单,集成度高
- 适合较复杂工程
科学计算 和数据分析
Canopy
- 公司维护,工具收费
- 支持近500个第三方库
- 适合科学计算领域应用开发
Anaconda
- 开源免费
- 支持近800个第三方库
后记
这是第一次尝试用Markdown格式写文章,感觉不错。以后就尝试这个了,但是有个疑问,要是毕业论文用这个写,能不能转成和别人一样的格式。