AI智能
改变未来

跟小白学Python数据分析——描述性统计分析

Mr.林:小白,我们已经学会了数据导入,那么今天就来学习如何进行基本统计分析。
小白:好啊!
Mr.林:基本统计分析,又叫描述性统计分析,它是指运用制表、分类、图形以及计算概括性数据来描述数据特征的各项活动,以发现其内在规律的统计分析方法。
描述性统计分析主要包括数据的集中趋势分析、数据的离散程度分析、数据的频数分布分析等,常用的统计指标有:计数、求和、平均值、方差、标准差等。
在Pandas 中,使用describe 函数进行描述性统计分析。
我们继续使用导入使用的案例数据进行学习,输入以下代码:

1import pandas2data = pandas.read_csv(3\'D:/D/data.csv\',4 engine=\'python\',5 encoding=\'utf8\'6)

Mr.林:执行后,在变量浏览窗口中就可以看到刚导入的data变量了,双击打开data变量,就可以得到下面这张表。

然后输入以下代码

1# 对数据框进行描述统计分析2data.describe()

执行后,直接在输出窗口中可以查看结果。

1                  id           age2count   59101.000000  59101.0000003mean   149829.546471     27.2288624std     28772.846683      5.3895595min    100000.000000      3.000000625%    124850.000000     24.000000750%    150032.000000     26.000000875%    174773.000000     29.0000009max    199501.000000     87.000000

可以看到describe 函数仅对id、age这两列数据进行描述统计分析,小白,你知道为什么吗?
小白:因为只有这两列才是数值型数据。
Mr.林:是的,我们继续看,给出的结果有count(计数)、mean(平均值)、std(标准差)、min(最小值)、25%(第一四分位数)、50%(中位数)、75%(第三四分位数)、max(最大值),这样我们就可以对数据有个基本的了解。
小白:id这列数据其实统计mean(平均值)、std(标准差)、25%(第一四分位数)、50%(中位数)、75%(第三四分位数)这几个指标好像意义不大。
Mr.林:哈哈,不错呦!确实没什么意义。如果只要对age列进行统计,还可以这样写代码

1data.age.describe()

执行后,直接在输出窗口中可以查看结果。

1count    59101.0000002mean        27.2288623std          5.3895594min          3.000000525%         24.000000650%         26.000000775%         29.0000008max         87.000000

如果仅仅需要统计某个指标,可以这样写

1# 统计用户数2data.id.count()

统计结果:59101

1# 平均年龄2data.age.mean()

统计结果:27.228862

1# 年龄最大值2data.age.max()

统计结果:87

1# 年龄最小值2data.age.min()

统计结果:3

1# 年龄方差2data.age.var()

统计结果:29.04735

1# 年龄标准差2data.age.std()

统计结果:5.389559
小白:好的。
Mr.林:今天就到这,下次我们继续学习其他操作,小白你回去要多多练习,多敲代码。

如果你喜欢本文,可以点击右下角在看
如果你在跟着学习,请在留言区留言:打卡
如果你刚看到本文,可以查看本系列历史文章跟着学习:
跟小白学Python数据分析——Anaconda安装
跟小白学Python数据分析——使用spyder
跟小白学Python数据分析——数据导入1
跟小白学Python数据分析——数据导入2

长按识别下方二维码,并关注公众号
回复“DR”获取案例数据

赞(0) 打赏
未经允许不得转载:爱站程序员基地 » 跟小白学Python数据分析——描述性统计分析