前言
20年的疫情,遇上考研调剂,各种不确定性,搞得自己很烦躁,那个时候就想着找个事情做一做。朋友圈太多的Python广告,不得不走进Python折腾一番,当时过了一遍,但是,最近感觉学了之后没有将其应用到生活当中去,就决心整理下笔记,达到巩固目的。
本文是基于Python网络爬虫与信息提取(MOOC)学习所得,一起进步
The Website is The API …
Requests
- 自动爬取HTML页面
 - 自动网络请求提示
 
robots.txt
- 网络爬虫排除标准
 
Beautiful Soup
- 解析HTML页面
 
Re
- 正则表达式详解
 - 提取页面关键信息
 
projects
- 实战项目A/B
 
Scrapy*
- 网络爬虫原理介绍
 - 专业爬虫框架介绍
 
本系列笔记有的实例(学习完附链接)
- 京东商品页面的爬取
 - 亚马逊商品页面的爬取
 - 百度/360搜索关键字提交
 - 网络图片的爬取和存储
 - I P地址归属地的自动查询
 - 中国大学排名定向爬虫
 - 淘宝商品比价定向爬虫
 - 股票数据定向爬虫
 - 股票数据专业爬虫
 - 表情包专业爬虫
 
Python语言开发工具(IDE)
选择一个适合自己的工具,表格中的黑体是本课程使用的工具
| 文本工具类IDE | 集成工具类IDE | 
|---|---|
| IDLE | PyCharm | 
| Notepad++ | Wing | 
| Sublime Text | PyDev & Eclipse | 
| Vim & Emacs | Visual Studio | 
| Atom | Anaconda & Spyder | 
| Komodo Edit | Canopy | 
IDLE
- 分为交互式和文件式
 - 适用于Python入门
 - 功能简单直接
 - 300+代码以内
 
Sublime Text
- 专门为程序员开发的第三方专用编程工具
 - 专业编程体验
 - 多种编程风格
 - 工具非注册免费试用
 
Wing
- 公司维护,工具收费
 - 调试功能丰富
 - 版本控制,版本同步
 - 适合多人共同开发
Visual Studio & PTVS
PTVS - 微软公司维护
 - win环境为主
 - 调试功能丰富
 
Eclipse
pyDev
- 开源IDE开发工具
 - 早年是为Java程序员开发的,需要用户自定义,因此使用者需要具有一定的开发经验
 
PyCharm
- 社区版免费
 - 简单,集成度高
 - 适合较复杂工程
 
科学计算 和数据分析
Canopy
- 公司维护,工具收费
 - 支持近500个第三方库
 - 适合科学计算领域应用开发
 
Anaconda
- 开源免费
 - 支持近800个第三方库
 
后记
这是第一次尝试用Markdown格式写文章,感觉不错。以后就尝试这个了,但是有个疑问,要是毕业论文用这个写,能不能转成和别人一样的格式。
爱站程序员基地


