第3章 频率分布与可视化
3.1 频率分布表
最大值,最小 => 组距、分组书目
=> 频率直方图 => f(x) 正态分布、卡方分布、t 分布(数学推导)
本质是一个分组计数的过程。
- 确定范围 Field
- 分组 组距 -> 上限和下限 -> 数目
数目:组距太小,效果较差,组距太大,计算成本大
如何找到最优组距?需要对数据、对业务的理解。
计数 -> 频数和频率、累计频率
可视化,画直方图 => 找到 先验概率,数据的大概分布
// IMPORTANT
通过过去的、无序的数据计算出先验概率,本质上是 排序分段。
等距抽样
隔一段时间抽一个。
泊松分布
是所有函数的一组基。其他函数是坐标系上的点。(向量化)
把坐标轴从实数域扩充到复数域。
区块链期刊核心原理可以是泊松分布(排队论),每次生成区块 => 随机过程
泊松过程:
注重知识的迁移、组网。
3.2 数字特征
众数、极差、样本标准差
样本方差
n-1 个自由度,因为 \bar{x} 吃掉了一个。
极差
3.3 可视化
其他:面向模型,鲁棒性、稳定性、收敛速度 数据的可视化为我们的目标服务:面向读者
信息量的、展现的层次丰富清晰
一图胜千言
在论文中:
Method 图:体现方法
Expeniment 图:体现流程
着色?美观
艺术本质上是表达能力。