在具有2列的目录中有多个文件(20),例如
transcript_id value
ENMUST001 2
ENMUST003 3
ENMUST004 5
每个文件中的行数不同我想做的就是以这种方式将所有20个文件合并到一个巨大的矩阵中
transcript_id value_file1 value_file2....value_file20
ENMUST001 2 3
ENMUST003 3 4
ENMUST004 5 0
从transcript_id列收集所有id,并从每个文件(文件名作为列名)中收集对应的值,如果没有值,则使用0.
我试图用熊猫来做到这一点,
import os
import glob
import pandas as pd
path = 'pathtofiles'
transFiles = glob.glob(path + "*.tsv")
df_files = []
for file in transFiles:
df = pd.read_csv(file, sep='\t')
df.set_index('transcript_id')
df_files.append(df)
df_combine = pd.concat(df_files, axis=1).fillna(0)
Error:
ValueError: No objects to concatenate
想知道非熊猫方式是否是更好的方法?任何伪代码表示赞赏.
编辑
找到输出
df.set_index('transcript_id')
print (df.shape)
(921, 1)
(1414, 1)
(659, 1)
(696, 1)
(313, 1)
print (df.is_unique)
(921, 1)
False
(1414, 1)
False
(659, 1)
False
(696, 1)
False
(313, 1)
False
df = df.drop_duplicates(inplace=True)
df_files.append(df)
df_combine = pd.concat(df_files, axis=1).fillna(0)
New error
ValueError: All objects passed were None
重复打印
before: (921, 1)
after: (914, 1)
before: (1414, 1)
after: (1410, 1)
before: (659, 1)
after: (658, 1)
before: (696, 1)
after: (694, 1)
before: (313, 1)
after: (312, 1)
解决方法:
set_index的默认行为是inplace = False.尝试将df.set_index(‘transcript_id’)替换为df = df.set_index(‘transcript_id’).您也可以使用df = df [〜df.index.duplicated(keep =’first’)]删除索引中的重复值.
import os
import glob
import pandas as pd
path = 'pathtofiles'
transFiles = glob.glob(path + "*.tsv")
df_files = []
for file in transFiles:
df = pd.read_csv(file, sep='\t')
df = df.set_index('transcript_id') # set index
df = df[~df.index.duplicated(keep='first')] # remove duplicates
df.columns = [os.path.split(file)[-1]] # set column name to filename
df_files.append(df)
df_combine = pd.concat(df_files, axis=1).fillna(0)
标签:pandas,python-2-7,python 来源: https://codeday.me/bug/20191111/2017333.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。