特征处理编码:
数据类型:数值 字符
是否有顺序
类别数量:高低基数
1、独热编码 针对无序低基数类离散特征,使之变为哑特征
不适合高基数的特征
2、标签编码:针对无序低基数类型的离散特征 形式简单且对于低基数特征有效
3、woe编码:代表特征对于y标签的预测能力,常用于描述区分好坏客户的衡量标准
4、平均数编码:用于高基数类特征的编码
5、模型编码:使用GS编码 将类别特征转为累积值 lightGBM Catboost
1、woe的计算过程
WOE = ln (第i个分箱的坏人数 / 总坏人数) - ln (第i个分箱的好人数 / 总好人数)
这个公式可以理解为每个箱体坏人分布相比于好人分布的差异性
处理非线性特征
2、
标签:分箱,编码,特征,基数,woe,数据挖掘,人数 来源: https://www.cnblogs.com/AKsnoopy/p/16660315.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。