第2章 抽样方式与数据预处理
2.1 抽样方式
简单随机抽样
简单随机 means 每个个体被抽到的机会均等。
- 使用抽签法,数据越集中效果越好;
- 使用随机数据表
适合那种个体差异小,对于那些有某种趋势,或片面差异的效果差。
不等可能:集成学习(分类任务),改变每个样本被抽到的权重。
训练模型,根据测试,提高错误的权重,再次训练(也就是错题本!) 作为整体
分层抽样
按照特征分为若干层 Layer,类别。
在个体差异大的时候使用。
分级抽样(时序)
调查或实验一个已选择单位。
对于该单位,再对相同的个体抽样。
整群抽样
划分若干区块、集群。
随机选择至少一个 block 全面调查,集中起来估计整体的特征。
2.2 数据预处理(特征工程)
刷公开数据集为什么效果好?已经被清洗的很漂亮了。
- 数据标注:人工标注
- 数据清洗:脏数据、不完整的数据
- 数据补全:脱敏后的工业、医疗数据价值非常大,非常珍贵,能补全的尽量补全
- 数据统计:频率分布表、
数据的价值是一次性的。数据被分析完后就没价值了。