Skip to content

第2章 抽样方式与数据预处理

2.1 抽样方式

简单随机抽样

简单随机 means 每个个体被抽到的机会均等。

  • 使用抽签法,数据越集中效果越好;
  • 使用随机数据表

适合那种个体差异小,对于那些有某种趋势,或片面差异的效果差。

不等可能:集成学习(分类任务),改变每个样本被抽到的权重。

训练模型,根据测试,提高错误的权重,再次训练(也就是错题本!)M1,M2,...,MnM_1, M_2, ... ,M_n 作为整体

分层抽样

按照特征分为若干层 Layer,类别。

在个体差异大的时候使用。

分级抽样(时序)

调查或实验一个已选择单位。

对于该单位,再对相同的个体抽样。

整群抽样

  1. 划分若干区块、集群。

  2. 随机选择至少一个 block 全面调查,集中起来估计整体的特征。

2.2 数据预处理(特征工程)

刷公开数据集为什么效果好?已经被清洗的很漂亮了。

  1. 数据标注:人工标注
  2. 数据清洗:脏数据、不完整的数据
  3. 数据补全:脱敏后的工业、医疗数据价值非常大,非常珍贵,能补全的尽量补全
  4. 数据统计:频率分布表、

数据的价值是一次性的。数据被分析完后就没价值了。

CC BY-NC-SA 4.0