Python语言做数据探索教程

  • 1 数据导入
  • 2 数据类型变换
  • 3 数据集变换
  • 4 数据排序
  • 5 数据可视化
  • 6 列联表
  • 7 数据抽样
  • 8 数据去重
  • 9 数据聚合运算
  • 10 数据缺失值识别和处理
  • 11 数据合并

 

1 数据导入

数据格式常有:csv、tsv、txt、xlsx和json等。

Python可以方便地导入这些数据格式。

利用Python的pandas库做数据导入,把导入的数据存放在一个DataFrame对象里,主要函数如下:

Python语言做数据探索教程

Python语言做数据探索教程

2 数据类型变换

数据类型变化是数据处理的一种常用操作。

数值变量转换为字符串变量或者字符串变量转换为数值变量

Python语言做数据探索教程

字符串变量转换为日期变量

Python语言做数据探索教程

3 数据集变换

Python做数据透视图,如图:

Python语言做数据探索教程

Python语言做数据探索教程

4 数据排序

Python做数据排序,可以针对一个变量或者多个变量进行升序或者降序操作。Python语言做数据探索教程

Python语言做数据探索教程

5 数据可视化

数据可视化可以更加容易方便地认识和理解数据。

Python做数据可视化的常用库:matplotlib和seaborn。

对于一份销售职员数据集

Python语言做数据探索教程

使用数据可视化解决这些问题:

  • 年龄的分布
  • 年龄与销量的关系

直方图

Python语言做数据探索教程

Python语言做数据探索教程

散点图

Python语言做数据探索教程

Python语言做数据探索教程

6 列联表

列联表常用于理解一个或者多个分类变量的分布。

Python语言做数据探索教程

7 数据抽样

数据抽样可以快速方便地理解数据。

Python做数据抽样利用numpy和random模块

Python语言做数据探索教程

8 数据去重

Python去掉数据集中重复记录,使用dataframe.drop_duplicates()方法。

Python语言做数据探索教程

9 数据聚合运算

Python对数据做摘要分析,即快速获取数据最小值、最大值、平均值等信息,使用dataframe.describe()方法。

Python语言做数据探索教程

10 数据缺失值识别和处理

Python识别数据缺失值用dataframe.isnull()

df.isnull()

缺失值处理方法:1)删除方法、2)插补方法

以插入均值修补变量缺失值为例

Python语言做数据探索教程

11 数据合并

数据连接与合并是把不同数据源集成在一块的常用操作。

使用pandas的merge方法

Python语言做数据探索教程

您在阅读中,有什么建议或者想法,请评论

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s