之前学了用python制作爬虫去爬取数据,但是不知道数据有什么用途。在请教惨绿青年小哥哥后,得知数据可以用pandas库进行数据分析然后得出有用的信息。python果然厉害,还能用来进行数据分析。在小哥哥的教导下,Paradoxical总算掌握了pandas的基本用法,一起来学习吧~
首先我们要安装pandas库,在命令行输入“pip install pandas”就可以安装了。
先说说pandas的常用数据结构DataFrame,这是类似表格的结构,由若干行和列组成,大家可以将它当作一个表格来看。下面是使用ExcelFile()读取练习数据文件的代码,可以看到df对象是DataFrame类型。
有些列是不需要的,所以我们只提取有用的列即可。
还有另一种常用的提取方法loc。
也可以直接用“.”和“[]”来提取列。
数据提取方法掌握这些就可以了,接下来看一下其他方面的。
查看数据表属性
可以用以下方法查看数据表的属性。
对数据表的数据进行清洗
可以用以下方法对数据进行清洗。
对数据表的数据进行统计
可以用以下方法对数据进行统计。
对数据表的数据进行筛选
可以用以下方法对数据进行筛选。结合上面的统计方法使用也可以的。
对数据表的数据进行汇总
可以用以下方法对数据进行汇总。
pandas的功能还有很多,这里只展示了一部分,大家可以参考pdf去挖掘更多的功能哦~