pandas tricks

2022-05-14 01:03:34 阅读：210 来源： 互联网

标签：df tricks testing nan np pd print pandas

# Check for equality
# 创建DataFrame
df = pd.DataFrame({'a':[10, 40, np.nan], 'b':[10, 40, np.nan]})
print('data:\n', df)
print()
# 查看a列与b列是否相同
print('df.a == df.b:')
print(df.a == df.b)
print()
# 查看两个空值是否相同,返回False
print('np.nan == np.nan:')
print(np.nan == np.nan)
# 可以用equals()方法
print()
print('df.a.equals(df.b):')
print(df.a.equals(df.b))
print()
# 可以使用assert_series_equal函数
print('pd.testing.assert_series_equal(df.a, df.b, check_names=False, check_dtype=False):')
print(pd.testing.assert_series_equal(df.a, df.b, check_names=False, check_dtype=False))
print()
# assert_frame_equal函数查看是否相同,异常则输出
df_new = df.copy()
pd.testing.assert_frame_equal(df, df_new)
# Use NumPy without importing NumPy
pd.np.random.seed(0)
d1 = pd.DataFrame(pd.np.random.rand(2, 4))
print('d1:\n', d1)
d1.loc[0,0] = pd.np.nan
print('d1:\n', d1)
# Calculate memory usage
df.info(memory_usage='deep')
# calculate memory used by each column
df.memory_usage(deep=True)
# Convert one set of values to another
df['c'] = df.a.factorize()[0]
print(df)
df = pd.DataFrame([[12, 25, 2019, 'christmas'], [11, 28, 2019, 'thanksgiving']],
columns=['month', 'day', 'year', 'holiday'])
print(df)
df['date'] = pd.to_datetime(df[['month', 'day', 'year']])
print(df)
# Create an example DataFrame
pd.util.testing.makeDataFrame().head()
pd.util.testing.makeMissingDataframe().head()
df = pd.util.testing.makeTimeDataFrame().head()
df.resample('M').A.mean()
df = pd.util.testing.makeTimeDataFrame().head()
df.reset_index(inplace=True)
df.resample('D', on='index').A.mean()
# 保持CSV可以压缩
df.to_csv('dataframe.csv.zip')
df.to_csv('dataframe.csv.gz')
df.to_csv('dataframe.csv.bz2')
df.to_csv('dataframe.csv.xz')
# Fill missing values using interpolation
df = pd.DataFrame({'a':[100, 120, 130, np.nan, 140], 'b':[9, 9, np.nan, 7.5, 6.5]})
df.index = pd.to_datetime(['2019-01', '2019-02', '2019-03', '2019-04', '2019-05'])
df
df.interpolate()
# Check for duplicate merge keys
left = pd.DataFrame({'color': ['green', 'yellow', 'red'], 'num':[1, 2, 3]})
left
right = pd.DataFrame({'color': ['green', 'yellow', 'pink', 'green'], 'size':['S', 'M', 'L', 'XL']})
right
pd.merge(left, right, how='inner', validate='one_to_many')
# 创建其他数据集方法
[x for x in dir(pd.util.testing) if x.startswith('make')]

标签：df,tricks,testing,nan,np,pd,print,pandas
来源： https://www.cnblogs.com/liyiyu/p/16268864.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

pandas tricks