spark.textFile读取.tar.gz文件数据问题

从官网的描述中spark.textFile方法是可以读取压缩文件.tar.gz. 当我测试的时候发现文件从一个文件读取到另外一个文件的时候,spark会在值中加入“文件名0ustar  rootroot”放到下个读取文件的第一个行。我想问一下是我写的有问题还是本来就是这样?如果是如何避免。另外读取这个读取文件Spark count记录也会多加一空行。这个也是不知道问什么?
sc.textFile("hdfs://mycluster/test/test.tar.gz")

要回复问题请先登录注册