1.缺失值处理
1.1 删除:样本存在大量缺失值,直接删除样本,如物业管理费
1.2 填充:全局常量,统计方法(平均数,中位数,众数),机器学习模型
电梯:六楼及以下的没有电梯,六楼以上的有电梯
修建年份:经纬度相同的数据进行中位数填充
绿化率:众数填充
1.3 不处理
2.异常值处理
简单统计法,箱线图法,模型检测法
删除:面试大于400,修建年限在1990年之前
视为缺失值
平均值修正
不处理
3. 数据变换
3.1 特征量化
类别特征:独热编码,标签编码
时间特征:时间差值法,离散法,权重法
3.2 数据标准化
离差标准化
标准差归一化
4.特征选取
4.1 过滤式
利用统计指标衡量输入特征和预测变量之间的相关性,pearson相关,卡方检验,独立于机器学习模型
4.2 包裹式
使用模型来筛选特征,通过不断增加或者删除特征
4.3嵌入式
将特征选择于机器学习模型融为一体,模型自动完成了特征选择(内置正则化的回归模型,XGBoost,随机森林)
利用嵌入法中的随机森林算法对特征进行重要性评估,利用包裹法对特征进行筛选
随机森林主要通过带外数据(OOB)错误率和基尼指数两种方法来计算特征向量的重要程度
(1)OOB错误率
对某一特征加入噪声数据,观测预测结果是否有显著性变化。如果有显著性变化,则说明特征重要性较高
(2)基尼指数
利用包裹法对特征进行特征筛选并建模分析,分别提取特征评分排序后的前5,前10,前20,前25以及全部特征作为实验,进行6词实验,根据预测结果,选择对应的输入特征作为模型最后的输入。
标签:估价,删除,特征,模型,特征选择,填充,二手房,电梯 来源: https://www.cnblogs.com/hapyygril/p/14070102.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。