spark

spark

spark sql把数据导入到oracle数据库中存在计算一直卡住不动

spark fish 回复了问题 • 2 人关注 • 1 个回复 • 50 次浏览 • 2017-06-20 19:33 • 来自相关话题

sparkstreaming输出小文件过多怎么解决

回复

spark 黄浪 发起了问题 • 1 人关注 • 0 个回复 • 31 次浏览 • 2017-06-19 12:32 • 来自相关话题

如何说服公司的领导升级到Spark2.1?

spark fish 回复了问题 • 2 人关注 • 1 个回复 • 50 次浏览 • 2017-06-09 11:00 • 来自相关话题

parquet 格式的数据来源问题

spark Dong 回复了问题 • 3 人关注 • 2 个回复 • 67 次浏览 • 2017-05-31 12:49 • 来自相关话题

300多个分区的数据repartition到几十个分区后再saveAsTxtFile为什么会报GC Overhead的错误?

hadoop Dong 回复了问题 • 2 人关注 • 1 个回复 • 54 次浏览 • 2017-05-31 12:47 • 来自相关话题

分布式写入数据库-调优-降低单条记录处理开销

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 51 次浏览 • 2017-05-31 12:44 • 来自相关话题

紧急问题,希望快答,谢谢

spark fish 回复了问题 • 3 人关注 • 3 个回复 • 75 次浏览 • 2017-05-27 16:40 • 来自相关话题

spark on yarn 执行 wordcount 一直在 ACCEPT,十几分中后就报错了 log 提示: UnknownHostException: hadoop-test

spark fish 回复了问题 • 3 人关注 • 2 个回复 • 88 次浏览 • 2017-05-15 10:05 • 来自相关话题

好像是包导入的问题,但是怎么导入这个包呢?这是执行bin/spark-shell --master yarn-client报错,

spark Michaell 回复了问题 • 3 人关注 • 2 个回复 • 216 次浏览 • 2017-05-12 16:35 • 来自相关话题

spark on yarn 报错 错误码 143

spark wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 73 次浏览 • 2017-05-10 10:30 • 来自相关话题

大家使用spark thriftserver,用hive jdbc 连接发觉每一次执行sql,zk连接都不释放

hive fish 回复了问题 • 3 人关注 • 2 个回复 • 100 次浏览 • 2017-05-09 09:38 • 来自相关话题

spark on yarn 分别把spark与yarn部署到不同的机器 怎么办

spark wangxiaolei 回复了问题 • 3 人关注 • 2 个回复 • 78 次浏览 • 2017-05-08 11:10 • 来自相关话题

Spark调优的时候,如何避免使用字符串这类耗内存比较大的数据结构?

spark fish 回复了问题 • 2 人关注 • 1 个回复 • 73 次浏览 • 2017-05-07 12:19 • 来自相关话题

spark streaming driver内存消耗增加

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 76 次浏览 • 2017-05-07 10:17 • 来自相关话题

spark streaming 如何处理乱序数据

spark Dong 回复了问题 • 3 人关注 • 1 个回复 • 79 次浏览 • 2017-05-07 10:16 • 来自相关话题

spark任务,可以通过spring定时任务定时调用吗?

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 82 次浏览 • 2017-05-07 10:16 • 来自相关话题

寻找好点的rdd练习题目

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 64 次浏览 • 2017-05-07 10:13 • 来自相关话题

Spark图计算一般都有哪些行业应用场景?

spark 余财源 回复了问题 • 2 人关注 • 2 个回复 • 162 次浏览 • 2017-05-06 22:26 • 来自相关话题

第九课_简易电影推荐系统

spark Jamesnb5 回复了问题 • 12 人关注 • 19 个回复 • 191 次浏览 • 2017-05-04 21:34 • 来自相关话题

本地运行Spark,创建HiveContext的时候报UnsatisfiedLinkError

hadoop wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 91 次浏览 • 2017-05-04 12:23 • 来自相关话题

条新动态, 点击查看
songyh20

songyh20 回答了问题 • 2015-08-19 16:09 • 2 个回复 不感兴趣

Spark sql registerAsTable无法注册表

赞同来自:

spark
1.3.0
1.4.1 
 
上面练习的代码是使用 程超老师录播视频中的示例,并没有按照最新直播的示例。spark 最近的版本此api发生了变化。
不是registerAsTable,而是registerTempTable
 
正确代码如下:
... 显示全部 »
spark
1.3.0
1.4.1 
 
上面练习的代码是使用 程超老师录播视频中的示例,并没有按照最新直播的示例。spark 最近的版本此api发生了变化。
不是registerAsTable,而是registerTempTable
 
正确代码如下:
 
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")
sqlContext.sql("select * from  people").show
 
 
 
tsingfu

tsingfu 回答了问题 • 2016-10-11 16:11 • 54 个回复 不感兴趣

第一课Spark概述

赞同来自:

学习使用开源框架,阅读源码是重要的学习方法,如何有效的阅读源码,可以分享一下心得不?
学习使用开源框架,阅读源码是重要的学习方法,如何有效的阅读源码,可以分享一下心得不?
@CrazyChao

@CrazyChao 回答了问题 • 2016-10-14 15:39 • 35 个回复 不感兴趣

第二课Spark程序设计与实战

赞同来自:

之前董老师讲课的时候讲到过中搜的日志统计与分析系统,它的可视化是怎么实现的呢? 现在做可视化用什么工具比较好?
之前董老师讲课的时候讲到过中搜的日志统计与分析系统,它的可视化是怎么实现的呢? 现在做可视化用什么工具比较好?
@CrazyChao

@CrazyChao 回答了问题 • 2016-10-18 14:56 • 30 个回复 不感兴趣

第三课Spark内部原理剖析与源码阅读

赞同来自:

16/10/18 04:30:59 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: A master URL must be set ... 显示全部 »
16/10/18 04:30:59 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: A master URL must be set in your configuration
at org.apache.spark.SparkContext.<init>(SparkContext.scala:401)
at cn.chinahadoop.SparkPi$.main(SparkPi.scala:58)
at cn.chinahadoop.SparkPi.main(SparkPi.scala) 这是IDEA运行一个Spark自带的例子SparkPi,已经在Program arguments中配置了“local”,但是出现如上报错,在代码中设置 setMaster("spark://192.168.141.128:7077") 出现报错: WARN AppClient$ClientEndpoint: Failed to connect to master 192.168.141.128:7077
java.io.IOException: Failed to connect to /192.168.141.128:7077 这些是什么原因导致的呢?另外我已经在spark-defaults.conf配置了spark.master!
 
陶静瞻

陶静瞻 回答了问题 • 2016-10-21 14:11 • 34 个回复 不感兴趣

第四课Spark应用经验与程序调优

赞同来自:

老师,能不能录个小视频讲解一下maven配置,能让例子能mvn package运行起来?
老师,能不能录个小视频讲解一下maven配置,能让例子能mvn package运行起来?
run_psw

run_psw 回答了问题 • 2017-04-06 16:21 • 45 个回复 不感兴趣

第一课_Spark概述

赞同来自:

董老师,您好!我想问2个问题
 
1、如何控制spark代码运行时的权限。例如,可以读写那些hive或hbase的表。或者那些hdfs目录
2、目前我能想到的访问和操作hadoop eco cluster 的方式有三种1、rest, 2、CLI,3、代码。请有... 显示全部 »
董老师,您好!我想问2个问题
 
1、如何控制spark代码运行时的权限。例如,可以读写那些hive或hbase的表。或者那些hdfs目录
2、目前我能想到的访问和操作hadoop eco cluster 的方式有三种1、rest, 2、CLI,3、代码。请有其他方式吗?
 
我们目前采用的是HDP2.5,通过ambari2.4部署的。希望控制住三条路线上的权限,分别是:restful、CLI、代码 的读写hdfs、Hive、Hbase等几个组件的权限。
目前看到的一套安全解决方案是通过knox + ranger + kerberos来实现的。整套框架如图所示。我的需求是构建一个安全的大数据据平台。希望做到安全的数据管理,其实就是做到各种方式的数据操作都受控就行了。
 
附件里面的那套方案能否实现我们的目标,无论通过那种方式访问集群的任何服务,必须要有认证授权才可以。否则连hdfs 50070 和 yarn 8088这样的界面都打不开
 

Spark summit SAN FRANCISCO 文档下载

spark 相约地平线 回复了问题 • 3 人关注 • 1 个回复 • 868 次浏览 • 2016-07-29 18:02 • 来自相关话题

梁堰波《Spark MLlib在金融行业的应用》演讲PPT

DCon DataScientist 发表了文章 • 7 个评论 • 3918 次浏览 • 2015-10-28 14:50 • 来自相关话题

题目: Spark MLlib在金融行业的应用 内容简介: Spark MLlib最新的一些进展,包括一些新的算法(神经网络,生存分析,WLS优化算法等)、使用ML构建机器学习pipeline以及如何调优等。最后会分享一些使用Spark MLlib进行机...
查看更多

Hadoop与Spark计算模型的比较分析

回复

hadoop zp0824 发起了问题 • 1 人关注 • 0 个回复 • 936 次浏览 • 2015-09-20 10:37 • 来自相关话题

Spark1.0新特性-->Spark SQL

spark cenyuhai 发表了文章 • 1 个评论 • 997 次浏览 • 2015-09-11 15:17 • 来自相关话题

Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了。但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们...
查看更多

Spark部署

spark cenyuhai 发表了文章 • 0 个评论 • 985 次浏览 • 2015-09-11 14:47 • 来自相关话题

Spark的部署让人有点儿困惑,有些需要注意的事项,本来我已经装成功了YARN模式的,但是发现了一些问题,出现错误看日志信息,完全看不懂那个错误信息,所以才打算翻译Standalone的部署的文章。第一部分,我先说一下YARN模式的部署方法。第二部分才是Sta...
查看更多

spark sql把数据导入到oracle数据库中存在计算一直卡住不动

回复

spark fish 回复了问题 • 2 人关注 • 1 个回复 • 50 次浏览 • 2017-06-20 19:33 • 来自相关话题

sparkstreaming输出小文件过多怎么解决

回复

spark 黄浪 发起了问题 • 1 人关注 • 0 个回复 • 31 次浏览 • 2017-06-19 12:32 • 来自相关话题

如何说服公司的领导升级到Spark2.1?

回复

spark fish 回复了问题 • 2 人关注 • 1 个回复 • 50 次浏览 • 2017-06-09 11:00 • 来自相关话题

parquet 格式的数据来源问题

回复

spark Dong 回复了问题 • 3 人关注 • 2 个回复 • 67 次浏览 • 2017-05-31 12:49 • 来自相关话题

300多个分区的数据repartition到几十个分区后再saveAsTxtFile为什么会报GC Overhead的错误?

回复

hadoop Dong 回复了问题 • 2 人关注 • 1 个回复 • 54 次浏览 • 2017-05-31 12:47 • 来自相关话题

分布式写入数据库-调优-降低单条记录处理开销

回复

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 51 次浏览 • 2017-05-31 12:44 • 来自相关话题

紧急问题,希望快答,谢谢

回复

spark fish 回复了问题 • 3 人关注 • 3 个回复 • 75 次浏览 • 2017-05-27 16:40 • 来自相关话题

spark on yarn 执行 wordcount 一直在 ACCEPT,十几分中后就报错了 log 提示: UnknownHostException: hadoop-test

回复

spark fish 回复了问题 • 3 人关注 • 2 个回复 • 88 次浏览 • 2017-05-15 10:05 • 来自相关话题

好像是包导入的问题,但是怎么导入这个包呢?这是执行bin/spark-shell --master yarn-client报错,

回复

spark Michaell 回复了问题 • 3 人关注 • 2 个回复 • 216 次浏览 • 2017-05-12 16:35 • 来自相关话题

spark on yarn 报错 错误码 143

回复

spark wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 73 次浏览 • 2017-05-10 10:30 • 来自相关话题

大家使用spark thriftserver,用hive jdbc 连接发觉每一次执行sql,zk连接都不释放

回复

hive fish 回复了问题 • 3 人关注 • 2 个回复 • 100 次浏览 • 2017-05-09 09:38 • 来自相关话题

spark on yarn 分别把spark与yarn部署到不同的机器 怎么办

回复

spark wangxiaolei 回复了问题 • 3 人关注 • 2 个回复 • 78 次浏览 • 2017-05-08 11:10 • 来自相关话题

Spark调优的时候,如何避免使用字符串这类耗内存比较大的数据结构?

回复

spark fish 回复了问题 • 2 人关注 • 1 个回复 • 73 次浏览 • 2017-05-07 12:19 • 来自相关话题

spark streaming driver内存消耗增加

回复

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 76 次浏览 • 2017-05-07 10:17 • 来自相关话题

spark streaming 如何处理乱序数据

回复

spark Dong 回复了问题 • 3 人关注 • 1 个回复 • 79 次浏览 • 2017-05-07 10:16 • 来自相关话题

spark任务,可以通过spring定时任务定时调用吗?

回复

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 82 次浏览 • 2017-05-07 10:16 • 来自相关话题

寻找好点的rdd练习题目

回复

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 64 次浏览 • 2017-05-07 10:13 • 来自相关话题

Spark图计算一般都有哪些行业应用场景?

回复

spark 余财源 回复了问题 • 2 人关注 • 2 个回复 • 162 次浏览 • 2017-05-06 22:26 • 来自相关话题

第九课_简易电影推荐系统

回复

spark Jamesnb5 回复了问题 • 12 人关注 • 19 个回复 • 191 次浏览 • 2017-05-04 21:34 • 来自相关话题

本地运行Spark,创建HiveContext的时候报UnsatisfiedLinkError

回复

hadoop wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 91 次浏览 • 2017-05-04 12:23 • 来自相关话题

梁堰波《Spark MLlib在金融行业的应用》演讲PPT

DCon DataScientist 发表了文章 • 7 个评论 • 3918 次浏览 • 2015-10-28 14:50 • 来自相关话题

题目: Spark MLlib在金融行业的应用 内容简介: Spark MLlib最新的一些进展,包括一些新的算法(神经网络,生存分析,WLS优化算法等)、使用ML构建机器学习pipeline以及如何调优等。最后会分享一些使用Spark MLlib进行机...
查看更多

Spark与Hadoop计算模型的比较分析

hadoop 唐半张 发表了文章 • 0 个评论 • 556 次浏览 • 2015-10-10 09:36 • 来自相关话题

Spark与Hadoop计算模型的比较分析 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。那么Spark和Hadoop有什么不同呢? 1.Spark的中间数据放到 内存 中,对于迭代运算效率比较高。 Spark aims...
查看更多

基于大数据分析系统Hadoop的13个开源工具

hadoop 唐半张 发表了文章 • 0 个评论 • 871 次浏览 • 2015-10-09 09:24 • 来自相关话题

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程...
查看更多

Yarn(MR2)上的应用汇总

yarn 唐半张 发表了文章 • 0 个评论 • 523 次浏览 • 2015-10-08 10:40 • 来自相关话题

Yarn做为hadoop下一代集群资源管理和调度平台, 其上能支持多种计算框架, 本文就简要介绍一下这些计算框架. 1.       MapReduce 首先是大家熟悉的mapreduce, 在MR2之前, hadoop包括HDFS和mapredu...
查看更多

MapReduce\Tez\Storm\Spark四个框架的异同

mapreduce 唐半张 发表了文章 • 0 个评论 • 686 次浏览 • 2015-10-08 10:38 • 来自相关话题

1) MapReduce:是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行 处理,非常适合数据密集型计算。 2) Spark:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘 计算框架,而Spark则...
查看更多

Spark与Hadoop计算模型的比较分析

spark 唐半张 发表了文章 • 0 个评论 • 535 次浏览 • 2015-10-08 10:37 • 来自相关话题

Spark与Hadoop计算模型的比较分析 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 1.Spark的中间数据放到 内存 中,对于迭代运算效率比较高。 Spark更适合于迭代运算比较多的ML和DM运算。因为在Spa...
查看更多

Spark源码系列(九)Spark SQL初体验之解析过程详解

spark cenyuhai 发表了文章 • 0 个评论 • 511 次浏览 • 2015-09-11 15:23 • 来自相关话题

好久没更新博客了,之前学了一些R语言和机器学习的内容,做了一些笔记,之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了,因为一些别的事情耽误了,今天就简单写点,Spark1.2马上就要出来了,不知道变动会不会很大,据说添加了很多的新...
查看更多

Spark源码系列(八)Spark Streaming实例分析

spark cenyuhai 发表了文章 • 0 个评论 • 502 次浏览 • 2015-09-11 15:23 • 来自相关话题

这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照 《Spark Streaming编程指南》。 Example代码分析 http://common.cnblogs.com/images/copycode.gif val...
查看更多

Spark源码系列(七)Spark on yarn具体实现

spark cenyuhai 发表了文章 • 0 个评论 • 404 次浏览 • 2015-09-11 15:22 • 来自相关话题

本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现,1.0.0里面已经是一个stable的版本了,可是1.0.1也出来了,离1.0.0发布才一个月的时间,更新太快了,节奏跟不上啊,这里仍旧是讲1.0.0...
查看更多

Spark源码系列(六)Shuffle的过程解析

spark cenyuhai 发表了文章 • 0 个评论 • 576 次浏览 • 2015-09-11 15:21 • 来自相关话题

Spark大会上,所有的演讲嘉宾都认为shuffle是最影响性能的地方,但是又无可奈何。之前去百度面试hadoop的时候,也被问到了这个问题,直接回答了不知道。 这篇文章主要是沿着下面几个问题来开展: 1、shuffle过程的划分? 2、shuffle的中间结...
查看更多

Spark源码系列(五)分布式缓存

spark cenyuhai 发表了文章 • 0 个评论 • 560 次浏览 • 2015-09-11 15:21 • 来自相关话题

这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。 http://common.cnblogs.com/images/copycode.gif def persist(newLevel...
查看更多

Spark源码系列(四)图解作业生命周期

spark cenyuhai 发表了文章 • 0 个评论 • 548 次浏览 • 2015-09-11 15:20 • 来自相关话题

这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know! http://images.cnitblog.com/i/477362/201406/212359414114202.png 我们先回顾一下这个...
查看更多

Spark源码系列(三)作业运行过程

spark cenyuhai 发表了文章 • 0 个评论 • 465 次浏览 • 2015-09-11 15:19 • 来自相关话题

作业执行 上一章讲了RDD的转换,但是没讲作业的运行,它和Driver Program的关系是啥,和RDD的关系是啥? 官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入RDD,找到collect方法。 [code] ...
查看更多

Spark源码系列(二)RDD详解

spark cenyuhai 发表了文章 • 0 个评论 • 449 次浏览 • 2015-09-11 15:18 • 来自相关话题

1、什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。 RDD的全名是Resilient Distributed Dataset,意思是容错的分布式数据集...
查看更多

Spark源码系列(一)spark-submit提交作业过程

spark cenyuhai 发表了文章 • 0 个评论 • 541 次浏览 • 2015-09-11 15:18 • 来自相关话题

前言 折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。   http://images.cnitblog.com/i/477362/201406/080007432086710.png 这个是Spark的App运行图...
查看更多

Spark1.0新特性-->Spark SQL

spark cenyuhai 发表了文章 • 1 个评论 • 997 次浏览 • 2015-09-11 15:17 • 来自相关话题

Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了。但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们...
查看更多

Spark Streaming自定义Receivers

spark cenyuhai 发表了文章 • 0 个评论 • 556 次浏览 • 2015-09-11 15:01 • 来自相关话题

自定义一个Receiver http://common.cnblogs.com/images/copycode.gif [code] class SocketTextStreamReceiver(host: String, port: Int( ...
查看更多

Spark Streaming编程指南

spark cenyuhai 发表了文章 • 0 个评论 • 475 次浏览 • 2015-09-11 14:49 • 来自相关话题

Overview Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。 它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map ...
查看更多

Spark的机器学习算法mlib的例子运行

spark cenyuhai 发表了文章 • 0 个评论 • 621 次浏览 • 2015-09-11 14:49 • 来自相关话题

 Spark自带了机器学习的算法mlib,页面网址 http://spark.incubator.apache.org/docs/latest/mllib-guide.html   但是运行的时候,遇到了很多问题,着实让我头疼了很久,不过最后还是解决了,下...
查看更多

Spark部署

spark cenyuhai 发表了文章 • 0 个评论 • 985 次浏览 • 2015-09-11 14:47 • 来自相关话题

Spark的部署让人有点儿困惑,有些需要注意的事项,本来我已经装成功了YARN模式的,但是发现了一些问题,出现错误看日志信息,完全看不懂那个错误信息,所以才打算翻译Standalone的部署的文章。第一部分,我先说一下YARN模式的部署方法。第二部分才是Sta...
查看更多