生成的数据集，csv文件列数不同，无法正常读取的解决方法

2022-01-08 13:30:28 阅读：283 来源： 互联网

标签：count 读取 temp column 列数 names largest csv

遇到的问题

由于自己读写文件操作生成的csv格式的数据集，每行的数据长度不一致，导致用pandas读取数据时候报错:
pandas.errors.ParserError: Error tokenizing data. C error: Expected 55 fields in line 5, saw 73
很是心烦，网上查了很久之后找到了大神分享的方法，记录一下！

代码如下

import pandas as pd
csv_file = "../datasets/features/dataset.csv"
largest_column_count =0
with open(csv_file, 'r') as temp_f:
    lines = temp_f.readlines()
    for l in lines:
        column_count = len(l.split(',')) + 1
        largest_column_count = column_count if largest_column_count < column_count else largest_column_count
temp_f.close()
# 这里可以直接定义你想要的列数就可以了（由于我的数据集列数千万级别，有点大，自己尝试了一下直接定义largest_column_count）
column_names = [i for i in range(0, largest_column_count)]

data = pd.read_csv("../datasets/features/dataset.csv", header=None, delimiter=',', names=column_names)

该方法原文链接

https://blog.csdn.net/Kyrie_10/article/details/117367220

标签：count,读取,temp,column,列数,names,largest,csv
来源： https://blog.csdn.net/u011253318/article/details/122377473

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

生成的数据集，csv文件列数不同，无法正常读取的解决方法

遇到的问题

代码如下

该方法原文链接