NEXT:努力积累100篇
访问量
163.8K
文章数
71
运行天
405
前言《百面》第二章「类别型特征」,提出一个问题:在对数据进行预处理时,应该怎样处理类别型特征?仔细研究才发现,这里面竟然有很多以前从未听过的知识——毕竟研究生不会有人手把手教你这么系统地去学,只有老板给什么就去实现什么而已……那么开始吧~什么是类别型特征看名字就知道,是机器学习的输入数据中,表示类别的特征。比如:数据ID|性别|学历|出生城市|10年内深圳买房(y)1|男|博士|深圳|是2|女|硕士|重庆|否3|男|大学|哈尔滨|否4|女|高中|成都|是5|男|初中|湖南|是这些数据需要被通过某种方法转换为数字,也就是所谓的编码,才能更好地被那些机器学习算法中建立的各种数学模型来使用。我以前的转换手段就是暴力的:女=0,男=1初中=0,高中=1,大学=2,硕士=3,博士=4深圳=0,重庆=1
前言买了本《百面机器学习》看着玩,虽然已经毕业了,机器学习还是放不下吧,希望以后新的机会出现能够及时抓住。书中第一章「特征工程」的“01特征归一化”(第002-003页)提到:对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。最常用的方法主要有以下两种。(1)线性函数归一化(Min-MaxScaling)。它对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。归一化公式如下其中,X为原始数据,Xmax、Xmin分别为数据最大值和最小值。(2)零均值归一化(Z-ScoreNormalization)。它会将原始数据映射到均值为0、标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,那么归一化公式定义为:我平时使用的全是线性函数归
1