博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python数据分析与展示[第三周](pandas数据特征分析单元8)
阅读量:5356 次
发布时间:2019-06-15

本文共 1099 字,大约阅读时间需要 3 分钟。

数据理解
  • 基本统计
  • 分布/累计统计
  • 数据特征
  • 数据挖掘
数据排序

操作索引的排序

.sort_index() 在指定轴上排序,默认升序

参数

  • axis=0 column
  • ascending=True 升序

.sort_values()

参数同上

+by 对应的(axis)轴上某一个索引或者索引列表 (会相应的改变行)

NAN空 统一放到排序末尾

基本统计函数

方法 说明
.sum() 和,默认0轴下同
.count() 计算非NAN的数量
.mean() .median() 计算均值,中位数
.var().std() 方差标准差
.min().max() 最小值最大值
.describe() 万能汇总,输出Series类型

对于二维的Dataframe 也可以调用describe

计算每一列统计值的信息
b.describe().ix['max'] 发挥一横行的数据 返回Series 获得所有列的max
b.describe()[2] 获得第2行的describe

累积运算

累计统计分析函数

.cumsum() 依次给出前1,2.。。。n个数的和
.cumprod() 积
.cummin() 最小值
.cummax() 最大值

如果是DataFrame 的话就是沿着列方向计算的

适用于Series DataFrame 滚动计算函数

滚动窗口函数

方法 说明
.rolling(w).sum() 依次计算相邻w各元素的和
.rolling(w).mead() 均值
.rolling(w).var() std min max 标准差方差最小(大)值

b.rolling(2).sum()

在当前的位置,与前一个元素相加(没有就补nan)

数据的相关分析

XY,如何判断相关性 协方差方法

协方差
\(cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}\)

Pearson相关系数

\(r=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}} \)

适用于 Series DataFrame

.cov() 计算协方差矩阵
.corr() 计算相关系数矩阵,Pearson Spearman Kendall系数等

a.corr(b)计算相关性

转载于:https://www.cnblogs.com/sfzyk/p/6877952.html

你可能感兴趣的文章
PL/SQL Developer StringBuffer 专用复制
查看>>
系统吞吐量
查看>>
jQuery源码笔记——数据缓存
查看>>
1012 数字分类
查看>>
python入门(输入、输出、if else 判断流、while循环、for循环)
查看>>
iOS学习之SKTagView的使用
查看>>
android studio创建项目
查看>>
Java 将指定字符串连接到此字符串的结尾 concat()
查看>>
animate支持的css属性
查看>>
routes
查看>>
百分点推荐引擎-从需求到架构
查看>>
高效搭建Storm全然分布式集群
查看>>
LeetCode 53 Spiral Matrix
查看>>
Hibernate Criterion
查看>>
大型站点技术架构(二)--架构模式
查看>>
BDB (Berkeley DB)数据库简单介绍(转载)
查看>>
zoj - 3209 - Treasure Map(精确覆盖DLX)
查看>>
Linux pipe函数
查看>>
python day03
查看>>
MVC View基础
查看>>