标签:数据分析 填充 res 指定 缺失 模块 gender True pandas
缺失值处理:
现有数据:
res.fillna() 对缺失值进行填充,可以指定value=xxx来填充 但实际不合理
res.dropna() 删除缺失值所在的行
res.isnull() 缺失值返回True或false
统计列字段下是否有数据缺失: res.isnull().any(axis=0)
计算数据缺失比例:res.isnull().sum(axis = 0)/res.shape[0]
针对缺失数据不同的处理方式:
对于该表格,gender字段的缺失 可以用众数填充
res.gender.mode()运行结果如下:
进行索引取值才能填充 res.gender.mode()[0]
对于age字段 可以用平均值填充,因为年龄不受极大值或极小值的影响,否则就要用中位数
对于薪资字段 推荐使用中位数来计算,因为受极大值或极小值的影响:
整体填充的代码为:
res.fillna(value={'gender':res.gender.mode()[0],'age':res.age.mean(),'income':res.income.median()},inplace=True)
最后加上inplace=True 直接修改原表数据
数据汇总
透视表功能
现有数据
pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
data:指定需要构造透视表的数据集
values:指定需要写入的数值框的字段列表
index:指定需要拉入行标签的字段列表
columns:指定需要拉入列标签的字段列表
aggfunc:指定数值的统计函数,默认为统计均值,也可以指定numpy模块中的其他统计函数
fill_value:指定一个标量,用于填充缺失值
margins:bool类型参数,是否需要显示行或列的总计值,默认为False
dropna:bool类型参数,是否需要删除整列为缺失的字段,默认为True
margins_name:指定行或列的总计名称,默认为All
res.head ()如果不写参数 默认读五行
pd.pivot_table(res, index = 'color', values='price', aggfunc='mean')
标签:数据分析,填充,res,指定,缺失,模块,gender,True,pandas 来源: https://www.cnblogs.com/5e30192115/p/15420767.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。