ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

组队学习

2021-04-16 23:00:18  阅读:160  来源: 互联网

标签:查看 特征 数据 学习 组队 可视化 data 缺失


EDA探索性分析能够帮助我们了解数据集,验证数据集
经过学习,我认为EDA分析一般步骤
1.查看数据集大体情况
2.查看缺失值情况并可视化缺失值
3.了解数据和特征分布
5.相关性分析

查看数据集大体情况

查看大体数据集的方法有:data.head(), data.shape, data.describe(), data.info()

查看缺失值情况

查看缺失值情况可先对缺失值进行求和,即data.isnull().sum(),然后直接可视化,可视化可用missing库或者matplotlib库。
注;缺失值不仅仅是nan值,一份数据集中某个值缺失不一定会放空,有可能用个符号去代替(例如用’-'号去代替缺失值),对于这种数据集,可通过data.info()查看各列的数据类型,取出object类型的列进行value_counts查看数据,若存在符号代替空值则可用series.replace()方法将符号替换为空值以便更好的进行分析
缺失值的处理:缺失值的处理包括3种方法
如果缺失值比例过高,则选择删除。
如果是针对类似XGBoost等树模型,因为这些模型自己能处理缺失值,所以对这类缺失值选择不处理
最后一种方法是差值补全,补全的方法的有统计量补全, 高维映射,建模预测,多重插补。差值补全的缺点是如果插补的数据不准确则会对后续的模型引入额外的误差

了解数据分布和特征分布

了解数据分布的方法应该是可视化数据并在数据的图上画上分布曲线,这样就能知道数据与哪种分布最匹配
对于特征分布,特征可分为数字特征和类别特征
对于没有直接label coding的数据,则可通过以下方法进行区分

#提取数字特征
#numeric_features = Train_data.select_dtypes(include=[np.number])
#numeric_features.columns
#提取类别特征
#categorical_features = Train_data.select_dtypes(include=[np.object])
#categprical.columns

否则就需要人为根据实际含义进行区分。
label coding就是通过映射将字符映射成各种数值类型数据的编码方式
对于数字特征,需要求出偏度和峰值,再配合可视化
对于类别特征,需要统计类别个数,再配合可视化

相关性分析

一般需要作出预测值和各个特征的关系图
正在学习,如有错误请指出,谢谢

标签:查看,特征,数据,学习,组队,可视化,data,缺失
来源: https://blog.csdn.net/weixin_45827175/article/details/115772893

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有