spark

spark

spark程序运行报错找不到sparksql的方法

回复

spark 黄浪 发起了问题 • 1 人关注 • 0 个回复 • 25 次浏览 • 2017-02-22 16:54 • 来自相关话题

怎么对spark streaming 的每个batch 进行broadcast

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 45 次浏览 • 2017-02-07 14:36 • 来自相关话题

Storm、Sprak streaming与Flink

spark wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 51 次浏览 • 2017-02-04 18:21 • 来自相关话题

spark 读取预分region的Hbase

spark Hagrid 回复了问题 • 3 人关注 • 3 个回复 • 130 次浏览 • 2017-01-16 09:38 • 来自相关话题

spark idea 本地运行

scala wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 86 次浏览 • 2017-01-06 15:20 • 来自相关话题

Spark job server context 管理问题

回复

spark taoshi006 发起了问题 • 1 人关注 • 0 个回复 • 47 次浏览 • 2017-01-06 10:13 • 来自相关话题

关于spark streaming的updateStateByKey这个算子的问题

回复

spark run_psw 发起了问题 • 1 人关注 • 0 个回复 • 50 次浏览 • 2017-01-05 08:37 • 来自相关话题

spark.textFile读取.tar.gz文件数据问题

回复

spark 亡命天涯 发起了问题 • 1 人关注 • 0 个回复 • 83 次浏览 • 2017-01-04 15:34 • 来自相关话题

spark-streaming -kakfa 问题

回复

kafka kaiball9999 发起了问题 • 1 人关注 • 0 个回复 • 51 次浏览 • 2016-12-22 16:46 • 来自相关话题

Spark sql 问题

spark wangxiaolei 回复了问题 • 2 人关注 • 3 个回复 • 69 次浏览 • 2016-12-21 15:57 • 来自相关话题

深入理解Spark RDD抽象模型和编写RDD函数

回复

spark Tony_JIN 发起了问题 • 1 人关注 • 0 个回复 • 64 次浏览 • 2016-12-21 13:00 • 来自相关话题

搭建Spark源码研读和代码调试的开发环境

回复

spark Tony_JIN 发起了问题 • 1 人关注 • 0 个回复 • 62 次浏览 • 2016-12-21 12:58 • 来自相关话题

导入源码报错

spark wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 54 次浏览 • 2016-12-19 11:33 • 来自相关话题

spark适合做图像数据分析吗?

回复

spark @CrazyChao 回复了问题 • 1 人关注 • 1 个回复 • 54 次浏览 • 2016-12-19 11:09 • 来自相关话题

第七课Spark Streaming应用及案例分析

spark auferack08 回复了问题 • 20 人关注 • 18 个回复 • 356 次浏览 • 2016-12-16 10:01 • 来自相关话题

在idea中运行WordCount时报错

spark wangxiaolei 回复了问题 • 2 人关注 • 3 个回复 • 63 次浏览 • 2016-12-15 15:13 • 来自相关话题

在Intellij IDEA中调试spark中的SparkPI报错

spark Tony_JIN 回复了问题 • 3 人关注 • 2 个回复 • 92 次浏览 • 2016-12-12 13:19 • 来自相关话题

spark-shell --master yarn-client启动的时候,中间报错

spark wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 105 次浏览 • 2016-12-08 17:49 • 来自相关话题

如何设置spark中每个stage的task数目

回复

spark Hagrid 回复了问题 • 1 人关注 • 5 个回复 • 78 次浏览 • 2016-12-07 09:46 • 来自相关话题

Hive读parquet文件问题

hive 李虎翼 回复了问题 • 2 人关注 • 1 个回复 • 106 次浏览 • 2016-12-03 16:36 • 来自相关话题

条新动态, 点击查看
songyh20

songyh20 回答了问题 • 2015-08-19 16:09 • 2 个回复 不感兴趣

Spark sql registerAsTable无法注册表

赞同来自:

spark
1.3.0
1.4.1 
 
上面练习的代码是使用 程超老师录播视频中的示例,并没有按照最新直播的示例。spark 最近的版本此api发生了变化。
不是registerAsTable,而是registerTempTable
 
正确代码如下:
... 显示全部 »
spark
1.3.0
1.4.1 
 
上面练习的代码是使用 程超老师录播视频中的示例,并没有按照最新直播的示例。spark 最近的版本此api发生了变化。
不是registerAsTable,而是registerTempTable
 
正确代码如下:
 
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")
sqlContext.sql("select * from  people").show
 
 
 
tsingfu

tsingfu 回答了问题 • 2016-10-11 16:11 • 53 个回复 不感兴趣

第一课Spark概述

赞同来自:

学习使用开源框架,阅读源码是重要的学习方法,如何有效的阅读源码,可以分享一下心得不?
学习使用开源框架,阅读源码是重要的学习方法,如何有效的阅读源码,可以分享一下心得不?
@CrazyChao

@CrazyChao 回答了问题 • 2016-10-14 15:39 • 35 个回复 不感兴趣

第二课Spark程序设计与实战

赞同来自:

之前董老师讲课的时候讲到过中搜的日志统计与分析系统,它的可视化是怎么实现的呢? 现在做可视化用什么工具比较好?
之前董老师讲课的时候讲到过中搜的日志统计与分析系统,它的可视化是怎么实现的呢? 现在做可视化用什么工具比较好?
@CrazyChao

@CrazyChao 回答了问题 • 2016-10-18 14:56 • 30 个回复 不感兴趣

第三课Spark内部原理剖析与源码阅读

赞同来自:

16/10/18 04:30:59 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: A master URL must be set ... 显示全部 »
16/10/18 04:30:59 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: A master URL must be set in your configuration
at org.apache.spark.SparkContext.<init>(SparkContext.scala:401)
at cn.chinahadoop.SparkPi$.main(SparkPi.scala:58)
at cn.chinahadoop.SparkPi.main(SparkPi.scala) 这是IDEA运行一个Spark自带的例子SparkPi,已经在Program arguments中配置了“local”,但是出现如上报错,在代码中设置 setMaster("spark://192.168.141.128:7077") 出现报错: WARN AppClient$ClientEndpoint: Failed to connect to master 192.168.141.128:7077
java.io.IOException: Failed to connect to /192.168.141.128:7077 这些是什么原因导致的呢?另外我已经在spark-defaults.conf配置了spark.master!
 
陶静瞻

陶静瞻 回答了问题 • 2016-10-21 14:11 • 32 个回复 不感兴趣

第四课Spark应用经验与程序调优

赞同来自:

老师,能不能录个小视频讲解一下maven配置,能让例子能mvn package运行起来?
老师,能不能录个小视频讲解一下maven配置,能让例子能mvn package运行起来?

Spark summit SAN FRANCISCO 文档下载

spark 相约地平线 回复了问题 • 3 人关注 • 1 个回复 • 481 次浏览 • 2016-07-29 18:02 • 来自相关话题

梁堰波《Spark MLlib在金融行业的应用》演讲PPT

DCon DataScientist 发表了文章 • 7 个评论 • 3411 次浏览 • 2015-10-28 14:50 • 来自相关话题

题目: Spark MLlib在金融行业的应用 内容简介: Spark MLlib最新的一些进展,包括一些新的算法(神经网络,生存分析,WLS优化算法等)、使用ML构建机器学习pipeline以及如何调优等。最后会分享一些使用Spark MLlib进行机...
查看更多

Hadoop与Spark计算模型的比较分析

回复

hadoop zp0824 发起了问题 • 1 人关注 • 0 个回复 • 734 次浏览 • 2015-09-20 10:37 • 来自相关话题

Spark1.0新特性-->Spark SQL

spark cenyuhai 发表了文章 • 1 个评论 • 779 次浏览 • 2015-09-11 15:17 • 来自相关话题

Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了。但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们...
查看更多

Spark部署

spark cenyuhai 发表了文章 • 0 个评论 • 726 次浏览 • 2015-09-11 14:47 • 来自相关话题

Spark的部署让人有点儿困惑,有些需要注意的事项,本来我已经装成功了YARN模式的,但是发现了一些问题,出现错误看日志信息,完全看不懂那个错误信息,所以才打算翻译Standalone的部署的文章。第一部分,我先说一下YARN模式的部署方法。第二部分才是Sta...
查看更多

spark程序运行报错找不到sparksql的方法

回复

spark 黄浪 发起了问题 • 1 人关注 • 0 个回复 • 25 次浏览 • 2017-02-22 16:54 • 来自相关话题

怎么对spark streaming 的每个batch 进行broadcast

回复

spark Dong 回复了问题 • 2 人关注 • 1 个回复 • 45 次浏览 • 2017-02-07 14:36 • 来自相关话题

Storm、Sprak streaming与Flink

回复

spark wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 51 次浏览 • 2017-02-04 18:21 • 来自相关话题

spark 读取预分region的Hbase

回复

spark Hagrid 回复了问题 • 3 人关注 • 3 个回复 • 130 次浏览 • 2017-01-16 09:38 • 来自相关话题

spark idea 本地运行

回复

scala wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 86 次浏览 • 2017-01-06 15:20 • 来自相关话题

Spark job server context 管理问题

回复

spark taoshi006 发起了问题 • 1 人关注 • 0 个回复 • 47 次浏览 • 2017-01-06 10:13 • 来自相关话题

关于spark streaming的updateStateByKey这个算子的问题

回复

spark run_psw 发起了问题 • 1 人关注 • 0 个回复 • 50 次浏览 • 2017-01-05 08:37 • 来自相关话题

spark.textFile读取.tar.gz文件数据问题

回复

spark 亡命天涯 发起了问题 • 1 人关注 • 0 个回复 • 83 次浏览 • 2017-01-04 15:34 • 来自相关话题

spark-streaming -kakfa 问题

回复

kafka kaiball9999 发起了问题 • 1 人关注 • 0 个回复 • 51 次浏览 • 2016-12-22 16:46 • 来自相关话题

Spark sql 问题

回复

spark wangxiaolei 回复了问题 • 2 人关注 • 3 个回复 • 69 次浏览 • 2016-12-21 15:57 • 来自相关话题

深入理解Spark RDD抽象模型和编写RDD函数

回复

spark Tony_JIN 发起了问题 • 1 人关注 • 0 个回复 • 64 次浏览 • 2016-12-21 13:00 • 来自相关话题

搭建Spark源码研读和代码调试的开发环境

回复

spark Tony_JIN 发起了问题 • 1 人关注 • 0 个回复 • 62 次浏览 • 2016-12-21 12:58 • 来自相关话题

导入源码报错

回复

spark wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 54 次浏览 • 2016-12-19 11:33 • 来自相关话题

spark适合做图像数据分析吗?

回复

spark @CrazyChao 回复了问题 • 1 人关注 • 1 个回复 • 54 次浏览 • 2016-12-19 11:09 • 来自相关话题

第七课Spark Streaming应用及案例分析

回复

spark auferack08 回复了问题 • 20 人关注 • 18 个回复 • 356 次浏览 • 2016-12-16 10:01 • 来自相关话题

在idea中运行WordCount时报错

回复

spark wangxiaolei 回复了问题 • 2 人关注 • 3 个回复 • 63 次浏览 • 2016-12-15 15:13 • 来自相关话题

在Intellij IDEA中调试spark中的SparkPI报错

回复

spark Tony_JIN 回复了问题 • 3 人关注 • 2 个回复 • 92 次浏览 • 2016-12-12 13:19 • 来自相关话题

spark-shell --master yarn-client启动的时候,中间报错

回复

spark wangxiaolei 回复了问题 • 2 人关注 • 1 个回复 • 105 次浏览 • 2016-12-08 17:49 • 来自相关话题

如何设置spark中每个stage的task数目

回复

spark Hagrid 回复了问题 • 1 人关注 • 5 个回复 • 78 次浏览 • 2016-12-07 09:46 • 来自相关话题

Hive读parquet文件问题

回复

hive 李虎翼 回复了问题 • 2 人关注 • 1 个回复 • 106 次浏览 • 2016-12-03 16:36 • 来自相关话题

梁堰波《Spark MLlib在金融行业的应用》演讲PPT

DCon DataScientist 发表了文章 • 7 个评论 • 3411 次浏览 • 2015-10-28 14:50 • 来自相关话题

题目: Spark MLlib在金融行业的应用 内容简介: Spark MLlib最新的一些进展,包括一些新的算法(神经网络,生存分析,WLS优化算法等)、使用ML构建机器学习pipeline以及如何调优等。最后会分享一些使用Spark MLlib进行机...
查看更多

Spark与Hadoop计算模型的比较分析

hadoop 唐半张 发表了文章 • 0 个评论 • 429 次浏览 • 2015-10-10 09:36 • 来自相关话题

Spark与Hadoop计算模型的比较分析 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。那么Spark和Hadoop有什么不同呢? 1.Spark的中间数据放到 内存 中,对于迭代运算效率比较高。 Spark aims...
查看更多

基于大数据分析系统Hadoop的13个开源工具

hadoop 唐半张 发表了文章 • 0 个评论 • 649 次浏览 • 2015-10-09 09:24 • 来自相关话题

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程...
查看更多

Yarn(MR2)上的应用汇总

yarn 唐半张 发表了文章 • 0 个评论 • 373 次浏览 • 2015-10-08 10:40 • 来自相关话题

Yarn做为hadoop下一代集群资源管理和调度平台, 其上能支持多种计算框架, 本文就简要介绍一下这些计算框架. 1.       MapReduce 首先是大家熟悉的mapreduce, 在MR2之前, hadoop包括HDFS和mapredu...
查看更多

MapReduce\Tez\Storm\Spark四个框架的异同

mapreduce 唐半张 发表了文章 • 0 个评论 • 466 次浏览 • 2015-10-08 10:38 • 来自相关话题

1) MapReduce:是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行 处理,非常适合数据密集型计算。 2) Spark:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘 计算框架,而Spark则...
查看更多

Spark与Hadoop计算模型的比较分析

spark 唐半张 发表了文章 • 0 个评论 • 384 次浏览 • 2015-10-08 10:37 • 来自相关话题

Spark与Hadoop计算模型的比较分析 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 1.Spark的中间数据放到 内存 中,对于迭代运算效率比较高。 Spark更适合于迭代运算比较多的ML和DM运算。因为在Spa...
查看更多

Spark源码系列(九)Spark SQL初体验之解析过程详解

spark cenyuhai 发表了文章 • 0 个评论 • 397 次浏览 • 2015-09-11 15:23 • 来自相关话题

好久没更新博客了,之前学了一些R语言和机器学习的内容,做了一些笔记,之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了,因为一些别的事情耽误了,今天就简单写点,Spark1.2马上就要出来了,不知道变动会不会很大,据说添加了很多的新...
查看更多

Spark源码系列(八)Spark Streaming实例分析

spark cenyuhai 发表了文章 • 0 个评论 • 380 次浏览 • 2015-09-11 15:23 • 来自相关话题

这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照 《Spark Streaming编程指南》。 Example代码分析 http://common.cnblogs.com/images/copycode.gif val...
查看更多

Spark源码系列(七)Spark on yarn具体实现

spark cenyuhai 发表了文章 • 0 个评论 • 292 次浏览 • 2015-09-11 15:22 • 来自相关话题

本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现,1.0.0里面已经是一个stable的版本了,可是1.0.1也出来了,离1.0.0发布才一个月的时间,更新太快了,节奏跟不上啊,这里仍旧是讲1.0.0...
查看更多

Spark源码系列(六)Shuffle的过程解析

spark cenyuhai 发表了文章 • 0 个评论 • 402 次浏览 • 2015-09-11 15:21 • 来自相关话题

Spark大会上,所有的演讲嘉宾都认为shuffle是最影响性能的地方,但是又无可奈何。之前去百度面试hadoop的时候,也被问到了这个问题,直接回答了不知道。 这篇文章主要是沿着下面几个问题来开展: 1、shuffle过程的划分? 2、shuffle的中间结...
查看更多

Spark源码系列(五)分布式缓存

spark cenyuhai 发表了文章 • 0 个评论 • 416 次浏览 • 2015-09-11 15:21 • 来自相关话题

这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。 http://common.cnblogs.com/images/copycode.gif def persist(newLevel...
查看更多

Spark源码系列(四)图解作业生命周期

spark cenyuhai 发表了文章 • 0 个评论 • 374 次浏览 • 2015-09-11 15:20 • 来自相关话题

这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know! http://images.cnitblog.com/i/477362/201406/212359414114202.png 我们先回顾一下这个...
查看更多

Spark源码系列(三)作业运行过程

spark cenyuhai 发表了文章 • 0 个评论 • 348 次浏览 • 2015-09-11 15:19 • 来自相关话题

作业执行 上一章讲了RDD的转换,但是没讲作业的运行,它和Driver Program的关系是啥,和RDD的关系是啥? 官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入RDD,找到collect方法。 [code] ...
查看更多

Spark源码系列(二)RDD详解

spark cenyuhai 发表了文章 • 0 个评论 • 324 次浏览 • 2015-09-11 15:18 • 来自相关话题

1、什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。 RDD的全名是Resilient Distributed Dataset,意思是容错的分布式数据集...
查看更多

Spark源码系列(一)spark-submit提交作业过程

spark cenyuhai 发表了文章 • 0 个评论 • 404 次浏览 • 2015-09-11 15:18 • 来自相关话题

前言 折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。   http://images.cnitblog.com/i/477362/201406/080007432086710.png 这个是Spark的App运行图...
查看更多

Spark1.0新特性-->Spark SQL

spark cenyuhai 发表了文章 • 1 个评论 • 779 次浏览 • 2015-09-11 15:17 • 来自相关话题

Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了。但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们...
查看更多

Spark Streaming自定义Receivers

spark cenyuhai 发表了文章 • 0 个评论 • 411 次浏览 • 2015-09-11 15:01 • 来自相关话题

自定义一个Receiver http://common.cnblogs.com/images/copycode.gif [code] class SocketTextStreamReceiver(host: String, port: Int( ...
查看更多

Spark Streaming编程指南

spark cenyuhai 发表了文章 • 0 个评论 • 333 次浏览 • 2015-09-11 14:49 • 来自相关话题

Overview Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。 它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map ...
查看更多

Spark的机器学习算法mlib的例子运行

spark cenyuhai 发表了文章 • 0 个评论 • 473 次浏览 • 2015-09-11 14:49 • 来自相关话题

 Spark自带了机器学习的算法mlib,页面网址 http://spark.incubator.apache.org/docs/latest/mllib-guide.html   但是运行的时候,遇到了很多问题,着实让我头疼了很久,不过最后还是解决了,下...
查看更多

Spark部署

spark cenyuhai 发表了文章 • 0 个评论 • 726 次浏览 • 2015-09-11 14:47 • 来自相关话题

Spark的部署让人有点儿困惑,有些需要注意的事项,本来我已经装成功了YARN模式的,但是发现了一些问题,出现错误看日志信息,完全看不懂那个错误信息,所以才打算翻译Standalone的部署的文章。第一部分,我先说一下YARN模式的部署方法。第二部分才是Sta...
查看更多