文章 2022-02-15 来自:开发者社区

Spark修炼之道(高级篇)——Spark源码阅读:第七节 resourceOffers方法与launchTasks方法解析

在上一节中,我们提到Task提交通过makeOffers提交到Executor上 // Make fake resource offers on just one executor private def makeOffers(executorId: String) { // Filter out executors under killing if...

文章 2022-02-15 来自:开发者社区

Spark修炼之道(高级篇)——Spark源码阅读:第六节 Task提交

Task提交 在上一节中的 Stage提交中我们提到,最终stage被封装成TaskSet,使用taskScheduler.submitTasks提交,具体代码如下: taskScheduler.submitTasks(new TaskSet( tasks.toArray, stage.id, stage.latestInfo.attemptId, stage.first...

文章 2022-02-15 来自:开发者社区

Spark修炼之道(高级篇)——Spark源码阅读:第十节 Standalone运行模式解析

Spark Standalone采用的是Master/Slave架构,主要涉及到的类包括: 类:org.apache.spark.deploy.master.Master 说明:负责整个集群的资源调度及Application的管理。 消息类型: 接收Worker发送的消息 1. RegisterWorker 2. ExecutorStateChanged 3. WorkerSchedule...

文章 2022-02-15 来自:开发者社区

Spark修炼之道(高级篇)——Spark源码阅读:第十二节 Spark SQL 处理流程分析

作者:周志湖 下面的代码演示了通过Case Class进行表Schema定义的例子: // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // this is used to implicitly convert an RDD to a DataFrame. i...

文章 2022-02-15 来自:开发者社区

Spark修炼之道(高级篇)——Spark源码阅读:第十三节 Spark SQL之SQLContext(一)

作者:周志湖 1. SQLContext的创建 SQLContext是Spark SQL进行结构化数据处理的入口,可以通过它进行DataFrame的创建及SQL的执行,其创建方式如下: //sc为SparkContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) 其对应的源码为: def this(spar...

问答 2022-02-15 来自:开发者社区

spark源码阅读环境搭建问题

各地大侠,现有个问题我在spark目录下运行sbt命令,下载完依赖包后,再运行eclipse,构建工程。然后将spark源友作为 maven工程导入到eclipse里面。但是,sbt下载的依赖包都在.ivy文件夹里面,maven工程依赖包在.m2文件夹里面。so 1:那么,此时,我在eclipse里面编译,是需要再重新用maven下载遍依赖吗? 2:还是可以导入sbt下载的依赖jar包?

问答 2018-12-19 来自:开发者社区

spark scala用map和过滤器阅读文本文件

我有一个文本文件,格式如下(id,f1,f2,f3,...,fn): 12345,0,0,1,2,...,323456,0,0,1,2,...,033333,0,1,1,0,...,056789,1,0,0,0,...,4a_123,0,0,0,6,...,3我想要读取文件(忽略线条a_123,0,0,0,6,...,3)来创建一个RDD[(Long, Vector)。这是我的解决方案: def....

文章 2018-02-13 来自:开发者社区

Spark学习[扩展阅读] 详解 Spark RDD

原英文论文见:http://people.csail.mit.edu/matei/papers/2012/nsdi_spark.pdf原翻译网址见:http://spark.apachecn.org/paper/zh/spark-rdd.html#%E6%A6%82%E8%A6%81[本文转载] 概要 为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题, 我们提出了 RDDs....

文章 2017-05-02 来自:开发者社区

《深入理解Spark:核心思想与源码分析》——1.3节阅读环境准备

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第1章,第1.3节阅读环境准备,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.3 阅读环境准备准备Spark阅读环境,同样需要一台好机器。笔者调试源码的机器的内存是8 GB。源码阅读的前提是在IDE环境中打包、编译通过。常用的IDE有IntelliJ IDEA、Eclipse。笔者选择用Eclipse编译....

文章 2017-05-02 来自:开发者社区

深入理解Spark:核心思想与源码分析. 1.3 阅读环境准备

1.3 阅读环境准备 准备Spark阅读环境,同样需要一台好机器。笔者调试源码的机器的内存是8 GB。源码阅读的前提是在IDE环境中打包、编译通过。常用的IDE有IntelliJ IDEA、Eclipse。笔者选择用Eclipse编译Spark,原因有二:一是由于使用多年对它比较熟悉,二是社区中使用Eclipse编译Spark的资料太少,在这里可以做个补充。在Windows系统编译Spark源码....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注