李虎翼

李虎翼

Hive/Hadoop

安徽省 安庆市 其他 绑定认证

威望 : 39 赞同 : 40 感谢 : 1

擅长话题

更多 »回复

0

不好意思,过了个春节,回答晚了。

1

你好! 1. Hive 2实际上最稳定的版本是 Hive 2.1.1修正版,最好和你的Hadoop 版本一致 2. 版本升级实际上主要就是元数据升级,其它没有什么,实际上Hive已经提供了元数据升级脚本,在scripts目录,有兴趣可以阅读升级脚本。我们的视频...

0

你好!你这个很有可能是没有hdfs权限导致。 你可以到启动hiveserver2的服务器,看下hiveserver2的日志。 默认可能是在 /tmp/启服务用户名/hive.log

1

你好,GenericUDFIn 本身是比 GenericUDFOpEqueal要快的。 你看下代码就明白: https://www.codatlas.com/github.com/apache/hive/master/ql/src/java/org/apach...

2

你好!从Java编程的角度来说,NPE一定是bug。 所以,这一定是Hive的Bug。 我们读源码的实际生产目的,很多时候就是为了提升软件掌控力,应对这种场景。   Hive 0.14 以下的版本都会存在这样的问题,建议升级为比较高的版本,比如1.3.0以上。...

1

你好,这个文件默认是没有的,需要从$HIVE_HOME/conf 中,把$HIVE_HOME/conf/hive-env.sh.template 重命名到 $HIVE_CONF_DIR/conf/hive-env.sh 默认情况下,$HIVE_CONF_DIR...

0

你好,关于FetchOperator,你看一下代码,你就可以发现。FetchOperator并没有实现Operator接口,而是一个FetchTask中的属性(配置、方法体)。所以它并不是一个Operator图的结点,而是可能指向Operator图的指针,内部...

1

你好,这个版本是比较旧的版本,可能是Hive内部的一个Bug. 可以通过/tmp/用户名/hive.log 确认一下发生的位置。   网上搜了一下,hive 0.13 确实有一个这样的Bug   https://issues.apache.org/jira/b...

1

你好,根据你的现像描述,我猜测你的报错发生在客户端。 因为客户端会getSplits容易OOM,而MapJoin原理上会使用两个jvm,一个dump小表,一个getsplits大表,所以读文件内容少,不会OOM。 你可以看 /tmp/用户名/hive.log ...

1

1. 桶是一个文件,分区是一个目录。桶很小,比分区小,小到能单机处理。 2. Hive自行实现了类似Combiner的机制。Combiner可以极大程度地减少Map到Reduce中传输的数据量,也就是说说,先在再每台map上用reduce的取合函数聚一下,再把...

1

你好,这种事我们以后可以多交流,因为我之前干过不少。 首先,QB中肯定是有这些信息的,但到了Operator层就不一定了,因为谓词会下推,我建议是看一下Hive.g,从QB (QBParseInfo)中拿,另外,据我所知,Hive已经有支持filter的文件格...

0

你好,ORCFile原理上是比较好的,这个可以读一下文档就知道。比如Hive很多的优化器,有些是可以推到文件格式里,比如扫描特定的列,特定的范围,如果文件格式好,扫描速度是比较快的。ORCFile也是我比较推荐的一种格式。他的作者是一个美国胖子,我见过他。

1

你好,所以,这个时候你完全可以读一下源码。 Hive权限模型分为认证和授权两部分, 认证是需要HiveServer2的 授权部分的代码如下: hive.security.authorization.enabled 是客户端鉴权的总开关。 鉴权在Driver,编...

0

你好,我觉得 @fish 哥说的是对的,应该只有20几条数据,应该是机器的问题。你是不是把各结点都起动在了一台虚拟机上?

0

@fish 哥已经解释得非常清楚了。

0

你好,TableSample 本质上并不是sample,而是一个客户端取文件的过程。比如,你有一表,有100个文件,50 percent实际上就是50个文件,如果产出这个表的语句是数据倾斜的,有一个1G,剩下的都是1k,那么你这个sample结果有比较小的可能...

1

你好,我从代码上来看的话。 你应该设定的是: mapred.max.split.size 和 mapred.min.split.size    https://www.codatlas.com/github.com/apache/parquet-mr/mast...

1

你好!逻辑,意思就是与执行平台无关的。物理,意思是与执行平台有关的。   我们的Operator图,和Optimizer.java优化后的Operator图,就是属于逻辑执行计划。 一旦这个Operator图被切了,比如遇到了ReduceSinkOperato...

0

你好!如果你继续关注我的后续课程,你会知道Hive是直接可以运行在Spark上的。 还有,就是你如果真的要使用spark sql去使用hive udf ,你需要确保执行register,以便classpath的分布式缓存能找到这个文件。 https://for...

0

这类问题我之前遇到过,解法并不一定是你需要的。 我通常的作法是在Hive表中创建一个id,然后去replace into ... mysql 也就是说MySQL中的id虽然可以自增,但并不一定使用其自增功能,以Hive生成的Id为准即可。   http://d...

更多 »发问

没有内容

更多 »动态

发问

回复

文章

最新动态

我的交易

类型 时间 数额 支付方式 状态 描述

提现记录

时间 金额 卡号 银行 持卡人 手续费 状态 描述

审核记录

时间 类型 状态 描述
更多 » 关注 26

亡命天涯 Corpulence xuzf001 阮小阮 刘昆

更多 » 25 人关注

admin 小鸡仔 daofeng hankunlin jirimutu

关注 5 话题
主页访问量 : 4171 次访问