Skip to content

第3章 频率分布与可视化

3.1 频率分布表

最大值,最小 => 组距、分组书目

=> 频率直方图 => f(x) 正态分布、卡方分布、t 分布(数学推导

本质是一个分组计数的过程。

  1. 确定范围 Field
  2. 分组 组距 -> 上限和下限 -> 数目

数目:组距太小,效果较差,组距太大,计算成本大

如何找到最优组距?需要对数据、对业务的理解。

  1. 计数 -> 频数和频率、累计频率

  2. 可视化,画直方图 => 找到 先验概率,数据的大概分布

// IMPORTANT

通过过去的、无序的数据计算出先验概率,本质上是 排序分段

等距抽样

隔一段时间抽一个。

泊松分布 P(x=k)=eλλkk!P(x=k) = \frac{e^{-\lambda} \lambda^k}{k!}

xnx^n 是所有函数的一组基。其他函数是坐标系上的点。(向量化)

eiπ=cosx+isinxe^{i \pi} = \cos x + i \sin x 把坐标轴从实数域扩充到复数域。

区块链期刊核心原理可以是泊松分布(排队论),每次生成区块 => 随机过程

泊松过程:

P(x(t)=k)=eλtλkk!E(x(t))=λtP(x(t)=k) = \frac{e^{-\lambda t} \lambda^k}{k!} \\ E(x(t)) = \lambda t

注重知识的迁移、组网。

3.2 数字特征

众数、极差、样本标准差

样本方差

S=1n1i=1n(xixˉ)2S = \frac{1}{n-1} \sum^{n}_{i=1} (x_i - \bar{x})^2

n-1 个自由度,因为 \bar{x} 吃掉了一个。

极差

3.3 可视化

其他:面向模型,鲁棒性、稳定性、收敛速度 数据的可视化为我们的目标服务:面向读者

信息量的、展现的层次丰富清晰

一图胜千言

在论文中:

  • Method 图:体现方法

  • Expeniment 图:体现流程

着色?美观

艺术本质上是表达能力

CC BY-NC-SA 4.0