AI智能
改变未来

Python数据分析 | 数据分析工具库Pandas介绍

作者:韩信子@ShowMeAI教程地址:http://www.showmeai.tech/tutorials/33本文地址:http://www.showmeai.tech/article-detail/145声明:版权所有,转载请联系平台与作者并注明出处

一、Pandas介绍

  • 官网:http://pandas.pydata.org/
  • 文档:http://pandas.pydata.org/pandas-docs/stable/

Pandas最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发团队继续开发和维护,属于PyData项目的一部分。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。

Pandas是Python中最常用到的数据操作和分析工具包,它构建在Numpy之上,具备简洁的使用接口和高效的处理效率。数据科学、机器学习AI应用过程,涉及数据清洗和分析的操作也频繁使用到Pandas。

Pandas有着与Numpy类似的代码风格,但Pandas主要基于其Dataframe对象处理表格型或异质型数据,而之前介绍到的Numpy更适合处理同质的数值类型数据。

当我们提到python数据分析的时候,大部分情况下都会使用Pandas进行操作。本篇为pandas系列的导语,对pandas进行简单介绍,整个系列覆盖以下内容:

  • 图解Pandas核心操作函数大全
  • 图解Pandas数据变换高级函数
  • Pandas数据分组与操作

二、Pandas特点

  • 方便地处理浮点与非浮点数据里的缺失数据,表示为 NaN;
  • 大小可变:插入或删除 DataFrame 等多维对象的列;
  • 自动、显式数据对齐:显式地将对象与一组标签对齐,也可以忽略标签,在 Series、DataFrame 计算时自动与数据对齐;
  • 强大、灵活的分组(group by)功能:拆分-应用-组合数据集,聚合、转换数据;
  • 把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象;
  • 基于智能标签,对大型数据集进行切片、花式索引、子集分解等操作;
  • 直观地合并(merge)、连接(join)数据集;
  • 灵活地重塑(reshape)、透视(pivot)数据集;
  • 轴支持结构化标签:一个刻度支持多个标签;
  • 成熟的 IO 工具:读取文本文件(CSV 等支持分隔符的文件)、Excel 文件、数据库等来源的数据,利用超快的 HDF5 格式保存 / 加载数据;
  • 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

三、Pandas安装

可以在命令行基于以下命令安装pandas(如果使用anaconda集成环境,内置环境自带pandas,无需安装):

pip install pandasconda install pandaspython3 -m pip install --upgrade pandas

对于Linux,比如Ubuntu,可以使用下面的方法安装,但可能出现各种依赖缺失或者安装错误:

sudo apt-get install python-numpy python-scipy python-matplotlib ipython python-pandas python-sympy python-nose

安装完Pandas后,我们就可以在python环境中导入它了:

import pandas as pd

有时候,我们会单独导入pandas包含的两个重要数据结构:

from pandas import Series, DataFrame

可以如下查看当前Pandas的版本信息:

pd.__version__

资料与代码下载

本教程系列的代码可以在ShowMeAI对应的github中下载,可本地python环境运行,能访问Google的宝宝也可以直接借助google colab一键运行与交互操作学习哦!

本系列教程涉及的速查表可以在以下地址下载获取:

  • Pandas速查表
  • NumPy速查表
  • Matplotlib速查表
  • Seaborn速查表

拓展参考资料

  • Pandas官方教程
  • Pandas中文教程

ShowMeAI相关文章推荐

  • 数据分析介绍
  • 数据分析思维
  • 数据分析的数学基础
  • 业务认知与数据初探
  • 数据清洗与预处理
  • 业务分析与数据挖掘
  • 数据分析工具地图
  • 统计与数据科学计算工具库Numpy介绍
  • Numpy与1维数组操作
  • Numpy与2维数组操作
  • Numpy与高维数组操作
  • 数据分析工具库Pandas介绍
  • 图解Pandas核心操作函数大全
  • 图解Pandas数据变换高级函数
  • Pandas数据分组与操作
  • 数据可视化原则与方法
  • 基于Pandas的数据可视化
  • seaborn工具与数据可视化

ShowMeAI系列教程推荐

  • 图解Python编程:从入门到精通系列教程
  • 图解数据分析:从入门到精通系列教程
  • 图解AI数学基础:从入门到精通系列教程
  • 图解大数据技术:从入门到精通系列教程

赞(0) 打赏
未经允许不得转载:爱站程序员基地 » Python数据分析 | 数据分析工具库Pandas介绍