数据理解
- 基本统计
- 分布/累计统计
- 数据特征
- 数据挖掘
数据排序
操作索引的排序
.sort_index() 在指定轴上排序,默认升序参数
- axis=0 column
- ascending=True 升序
.sort_values()
参数同上
+by 对应的(axis)轴上某一个索引或者索引列表 (会相应的改变行)NAN空 统一放到排序末尾
基本统计函数
方法 | 说明 |
---|---|
.sum() | 和,默认0轴下同 |
.count() | 计算非NAN的数量 |
.mean() .median() | 计算均值,中位数 |
.var().std() | 方差标准差 |
.min().max() | 最小值最大值 |
.describe() | 万能汇总,输出Series类型 |
对于二维的Dataframe 也可以调用describe
计算每一列统计值的信息 b.describe().ix['max'] 发挥一横行的数据 返回Series 获得所有列的max b.describe()[2] 获得第2行的describe累积运算
累计统计分析函数
.cumsum() 依次给出前1,2.。。。n个数的和 .cumprod() 积 .cummin() 最小值 .cummax() 最大值如果是DataFrame 的话就是沿着列方向计算的
适用于Series DataFrame 滚动计算函数
滚动窗口函数方法 | 说明 |
---|---|
.rolling(w).sum() | 依次计算相邻w各元素的和 |
.rolling(w).mead() | 均值 |
.rolling(w).var() std min max | 标准差方差最小(大)值 |
b.rolling(2).sum()
在当前的位置,与前一个元素相加(没有就补nan)数据的相关分析
XY,如何判断相关性 协方差方法
协方差 \(cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}\)Pearson相关系数
\(r=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}} \)适用于 Series DataFrame
.cov() 计算协方差矩阵 .corr() 计算相关系数矩阵,Pearson Spearman Kendall系数等a.corr(b)计算相关性