parquet 格式的数据来源问题

对于parquet 格式的数据 一般是通过spark 处理hdfs 上的文件然后再以parquet 格式写入到hdfs 上呢还是在采集的时候直接把数据转换为parquet 格式 放入 HDFS 再供 计算框架去处理呢?

fish - Hadooper

赞同来自:

都有可能,就是一种文件格式,当确定文件多以列方式进行处理,生成的时候,就将数据存成parquet格式就好了。

Dong - Hulu

赞同来自:

一般原始文件不是parquet,而是行式存储格式。   后面转化后成为parquet,可通过hive生成,或者spark sql中的spark.write.parquet(...)生成

要回复问题请先登录注册