
Spark
beeline 连接spark-thriftServer,insert语句报错
回复Hive 啊啊啊吧 发起了问题 • 1 人关注 • 0 个回复 • 602 次浏览 • 2020-07-20 15:10
几千万个文本(1TB左右)需要根据规则计算做结构化,用什么大数据架构比较合适?
Spark 天明ss7 回复了问题 • 2 人关注 • 1 个回复 • 1016 次浏览 • 2019-09-06 20:23
spark streaming 每个task耗时差距较大的问题
回复Spark daofeng 发起了问题 • 1 人关注 • 0 个回复 • 1254 次浏览 • 2019-01-11 18:21
spark 报错:Protocol message end-group tag did not match expected tag
回复Spark baicha 回复了问题 • 1 人关注 • 1 个回复 • 3577 次浏览 • 2018-12-03 15:48
请问SparkRDD里如何实现在上下两行或多行间比较的功能?
回复Spark ArgonPrime 发起了问题 • 1 人关注 • 0 个回复 • 2050 次浏览 • 2018-10-24 15:28
spark-submit 提交失败,Stack trace: ExitCodeException exitCode=10:
Spark gccyd 回复了问题 • 2 人关注 • 2 个回复 • 5304 次浏览 • 2018-12-23 15:57
Spark导入Hbase包不识别
Spark fish 回复了问题 • 2 人关注 • 1 个回复 • 948 次浏览 • 2018-06-27 16:35
Spark写parquet文件时,经过shuffle和不shuffle数据量 不同,shuffle后parquet文件压缩比降低
回复Spark shining0123 发起了问题 • 1 人关注 • 0 个回复 • 2192 次浏览 • 2018-05-30 09:59
优雅的停止SparkStreaming 作业
Spark 西西里ecf 回复了问题 • 3 人关注 • 2 个回复 • 1245 次浏览 • 2018-10-25 16:36
spark多个程序依赖同一个第三方jar包 这个在生产环境怎么管理比较好
Spark fish 回复了问题 • 2 人关注 • 1 个回复 • 1324 次浏览 • 2018-04-09 15:44
Spark读取CSV文件无法读取文件内容
Spark fish 回复了问题 • 2 人关注 • 1 个回复 • 1766 次浏览 • 2018-04-02 13:56
STDOUT: Host registration aborted. Ambari Agent host cannot reach Ambari Server 'localhost:8080'. Please check the network connectivity between the Ambari Agent host and the Ambari Server,ambari安装过程,遇到这个问题
回复Spark 小康康 发起了问题 • 1 人关注 • 0 个回复 • 3488 次浏览 • 2018-03-20 11:43
用hive 随机抽取n行记录 怎么做?
Spark qiweicei 回复了问题 • 2 人关注 • 1 个回复 • 2626 次浏览 • 2018-08-20 11:24
按照小象《手把手搭建hadoop》办法,格式化hdfs时,出错:FATAL namenode.NameNode: Exception in namenode join java.lang.InternalErrorat sun.security.ec.SunEC.initialize(Native Method)
回复Spark 小康康 发起了问题 • 1 人关注 • 0 个回复 • 1042 次浏览 • 2018-03-20 11:28
BSS平台HDFS容量超限告警,然后启动balancer,没有任何报错,进程也正常启动。查看log里面也没有发现任何的错误。但是一直到现在都已经移动了1900多次了。发现一直都还处于告警阀值附近
回复Spark 小康康 发起了问题 • 1 人关注 • 0 个回复 • 854 次浏览 • 2018-03-20 11:44
按照董老师博客内容编写spark wordcount程序,生成spark-wordcount-in-scala.jar,运行时报错:java.lang.ClassNotFountException: WordCount$$anonfun$2,请问如何解决?
回复Spark 小康康 发起了问题 • 1 人关注 • 0 个回复 • 999 次浏览 • 2018-03-20 11:29
在提交 on yarn模式下 加入 增加Executor以及 对应的core的数量的时候 在yarn UI页面上 看到 还是默认值,这个需要对某些配置文件 重新配置 吗?
Spark 史晓江 回复了问题 • 2 人关注 • 1 个回复 • 1642 次浏览 • 2018-03-20 11:31
1.3.0
1.4.1
上面练习的代码是使用 程超老师录播视频中的示例,并没有按照最新直播的示例。spark 最近的版本此api发生了变化。
不是registerAsTable,而是registerTempTable
正确代码如下:
... 显示全部 »
1.3.0
1.4.1
上面练习的代码是使用 程超老师录播视频中的示例,并没有按照最新直播的示例。spark 最近的版本此api发生了变化。
不是registerAsTable,而是registerTempTable
正确代码如下:
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")
sqlContext.sql("select * from people").show
org.apache.spark.SparkException: A master URL must be set ... 显示全部 »
org.apache.spark.SparkException: A master URL must be set in your configuration
at org.apache.spark.SparkContext.<init>(SparkContext.scala:401)
at cn.chinahadoop.SparkPi$.main(SparkPi.scala:58)
at cn.chinahadoop.SparkPi.main(SparkPi.scala) 这是IDEA运行一个Spark自带的例子SparkPi,已经在Program arguments中配置了“local”,但是出现如上报错,在代码中设置 setMaster("spark://192.168.141.128:7077") 出现报错: WARN AppClient$ClientEndpoint: Failed to connect to master 192.168.141.128:7077
java.io.IOException: Failed to connect to /192.168.141.128:7077 这些是什么原因导致的呢?另外我已经在spark-defaults.conf配置了spark.master!
1、如何控制spark代码运行时的权限。例如,可以读写那些hive或hbase的表。或者那些hdfs目录
2、目前我能想到的访问和操作hadoop eco cluster 的方式有三种1、rest, 2、CLI,3、代码。请有... 显示全部 »
1、如何控制spark代码运行时的权限。例如,可以读写那些hive或hbase的表。或者那些hdfs目录
2、目前我能想到的访问和操作hadoop eco cluster 的方式有三种1、rest, 2、CLI,3、代码。请有其他方式吗?
我们目前采用的是HDP2.5,通过ambari2.4部署的。希望控制住三条路线上的权限,分别是:restful、CLI、代码 的读写hdfs、Hive、Hbase等几个组件的权限。
目前看到的一套安全解决方案是通过knox + ranger + kerberos来实现的。整套框架如图所示。我的需求是构建一个安全的大数据据平台。希望做到安全的数据管理,其实就是做到各种方式的数据操作都受控就行了。
附件里面的那套方案能否实现我们的目标,无论通过那种方式访问集群的任何服务,必须要有认证授权才可以。否则连hdfs 50070 和 yarn 8088这样的界面都打不开
Spark summit SAN FRANCISCO 文档下载
Spark 相约地平线 回复了问题 • 3 人关注 • 1 个回复 • 2453 次浏览 • 2016-07-29 18:02
梁堰波《Spark MLlib在金融行业的应用》演讲PPT
DCon DataScientist 发表了文章 • 7 个评论 • 6022 次浏览 • 2015-10-28 14:50
Spark1.0新特性-->Spark SQL
Spark cenyuhai 发表了文章 • 1 个评论 • 2420 次浏览 • 2015-09-11 15:17
beeline 连接spark-thriftServer,insert语句报错
回复Hive 啊啊啊吧 发起了问题 • 1 人关注 • 0 个回复 • 602 次浏览 • 2020-07-20 15:10
各位大神 这段话翻译是什么意思,container被抢是,这个任务可以在其他executor更好的执行,然后把资源让出来?
回复Spark fish 回复了问题 • 2 人关注 • 1 个回复 • 1352 次浏览 • 2019-09-16 23:59
几千万个文本(1TB左右)需要根据规则计算做结构化,用什么大数据架构比较合适?
回复Spark 天明ss7 回复了问题 • 2 人关注 • 1 个回复 • 1016 次浏览 • 2019-09-06 20:23
spark yarn-cluster集群模式提交任务,计算结果保存到哪了?
回复Spark Patrick_SZ 回复了问题 • 5 人关注 • 5 个回复 • 8646 次浏览 • 2019-01-30 13:35
spark streaming 每个task耗时差距较大的问题
回复Spark daofeng 发起了问题 • 1 人关注 • 0 个回复 • 1254 次浏览 • 2019-01-11 18:21
spark-submit 提交失败,Stack trace: ExitCodeException exitCode=10:
回复Spark gccyd 回复了问题 • 2 人关注 • 2 个回复 • 5304 次浏览 • 2018-12-23 15:57
"求问 请问有用过spark sql的同学不? 我这边对一个parquet表做group by,distinct等聚合操作的时候,为什么输出了所有的行 没有进行聚合"
回复Hadoop 不问世事烦 回复了问题 • 2 人关注 • 1 个回复 • 1016 次浏览 • 2018-12-13 19:33
spark 报错:Protocol message end-group tag did not match expected tag
回复Spark baicha 回复了问题 • 1 人关注 • 1 个回复 • 3577 次浏览 • 2018-12-03 15:48
请问SparkRDD里如何实现在上下两行或多行间比较的功能?
回复Spark ArgonPrime 发起了问题 • 1 人关注 • 0 个回复 • 2050 次浏览 • 2018-10-24 15:28
Spark写parquet文件时,经过shuffle和不shuffle数据量 不同,shuffle后parquet文件压缩比降低
回复Spark shining0123 发起了问题 • 1 人关注 • 0 个回复 • 2192 次浏览 • 2018-05-30 09:59
spark多个程序依赖同一个第三方jar包 这个在生产环境怎么管理比较好
回复Spark fish 回复了问题 • 2 人关注 • 1 个回复 • 1324 次浏览 • 2018-04-09 15:44
flume自带的avro,里面有个压缩的配置, 是对单条数据的压缩还是对一个beachSize的压缩呢?
回复Spark 史晓江 发起了问题 • 1 人关注 • 0 个回复 • 1492 次浏览 • 2018-03-20 12:17
将python写的job提交到spark(yarn cluster model),总是ACCEPT状态,请问是不是yarn配置有问题造成的?
回复Spark 史晓江 发起了问题 • 1 人关注 • 0 个回复 • 1796 次浏览 • 2018-03-20 12:16
梁堰波《Spark MLlib在金融行业的应用》演讲PPT
DCon DataScientist 发表了文章 • 7 个评论 • 6022 次浏览 • 2015-10-28 14:50
Spark与Hadoop计算模型的比较分析
Hadoop 唐半张 发表了文章 • 0 个评论 • 1610 次浏览 • 2015-10-10 09:36
基于大数据分析系统Hadoop的13个开源工具
Hadoop 唐半张 发表了文章 • 0 个评论 • 2091 次浏览 • 2015-10-09 09:24
Yarn(MR2)上的应用汇总
Yarn 唐半张 发表了文章 • 0 个评论 • 1450 次浏览 • 2015-10-08 10:40
MapReduce\Tez\Storm\Spark四个框架的异同
MapReduce 唐半张 发表了文章 • 0 个评论 • 1694 次浏览 • 2015-10-08 10:38
Spark与Hadoop计算模型的比较分析
Spark 唐半张 发表了文章 • 0 个评论 • 1659 次浏览 • 2015-10-08 10:37
Spark源码系列(九)Spark SQL初体验之解析过程详解
Spark cenyuhai 发表了文章 • 0 个评论 • 1941 次浏览 • 2015-09-11 15:23
Spark源码系列(八)Spark Streaming实例分析
Spark cenyuhai 发表了文章 • 0 个评论 • 1837 次浏览 • 2015-09-11 15:23
Spark源码系列(七)Spark on yarn具体实现
Spark cenyuhai 发表了文章 • 0 个评论 • 1720 次浏览 • 2015-09-11 15:22
Spark源码系列(六)Shuffle的过程解析
Spark cenyuhai 发表了文章 • 0 个评论 • 2088 次浏览 • 2015-09-11 15:21
Spark源码系列(五)分布式缓存
Spark cenyuhai 发表了文章 • 0 个评论 • 1821 次浏览 • 2015-09-11 15:21
Spark源码系列(四)图解作业生命周期
Spark cenyuhai 发表了文章 • 0 个评论 • 2005 次浏览 • 2015-09-11 15:20
Spark源码系列(三)作业运行过程
Spark cenyuhai 发表了文章 • 0 个评论 • 1742 次浏览 • 2015-09-11 15:19
Spark源码系列(二)RDD详解
Spark cenyuhai 发表了文章 • 0 个评论 • 1782 次浏览 • 2015-09-11 15:18
Spark源码系列(一)spark-submit提交作业过程
Spark cenyuhai 发表了文章 • 0 个评论 • 1948 次浏览 • 2015-09-11 15:18
Spark1.0新特性-->Spark SQL
Spark cenyuhai 发表了文章 • 1 个评论 • 2420 次浏览 • 2015-09-11 15:17
Spark Streaming自定义Receivers
Spark cenyuhai 发表了文章 • 0 个评论 • 1560 次浏览 • 2015-09-11 15:01
Spark Streaming编程指南
Spark cenyuhai 发表了文章 • 0 个评论 • 1675 次浏览 • 2015-09-11 14:49
Spark的机器学习算法mlib的例子运行
Spark cenyuhai 发表了文章 • 0 个评论 • 1585 次浏览 • 2015-09-11 14:49