pandas读取csv文件出错

代码:
    data=pd.read_csv("d:/data/data.csv",encoding = "UTF-8")
    print data.head(3)
 异常:
File "pandas\parser.pyx", line 848, in pandas.parser.TextReader.read (pandas\parser.c:10415)
  File "pandas\parser.pyx", line 870, in pandas.parser.TextReader._read_low_memory (pandas\parser.c:10691)
  File "pandas\parser.pyx", line 924, in pandas.parser.TextReader._read_rows (pandas\parser.c:11437)
  File "pandas\parser.pyx", line 911, in pandas.parser.TextReader._tokenize_rows (pandas\parser.c:11308)
  File "pandas\parser.pyx", line 2024, in pandas.parser.raise_parser_error (pandas\parser.c:27037)
pandas.io.common.CParserError: Error tokenizing data. C error: Expected 33 fields in line 900, saw 36
另外:     在实际处理问题中,如果用户给的数据很大,中间有可能某几行格式pandas不一定兼容,存在这种情况吗?如果是这样,我们还可以直接用Pandas直接处理吗?有没有什么办法直接忽略异常读取      

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: 会飞的象

Pandas不能直接处理这种列数不同的数据。  根据错误信息可以看到是第900行数据列的个数和之前列的个数不相同造成的。所以这种数据是需要做数据清洗的,这也就是为什么实际项目中,数据清洗占用了大块的时间去做。

要回复问题请先登录注册