文章 2017-05-02 来自:开发者社区

《深入理解Spark:核心思想与源码分析》——1.4节Spark源码编译与调试

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第1章,第1.4节Spark源码编译与调试,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.4 Spark源码编译与调试1.下载Spark源码首先,访问Spark官网http://spark.apache.org/,如图1-18所示。 2.构建Scala应用使用cmd命令行进到Spark根目录,执行...

文章 2017-05-02 来自:开发者社区

深入理解Spark:核心思想与源码分析. 3.9 启动测量系统MetricsSystem

3.9 启动测量系统MetricsSystem MetricsSystem使用codahale提供的第三方测量仓库Metrics,有关Metrics的具体信息可以参考附录D。MetricsSystem中有三个概念: Instance:指定了谁在使用测量系统; Source:指定了从哪里收集测量数据; Sink:指定了往哪里输出测量数据。 Spark按照Instance的不同,区分为Master、....

文章 2017-05-02 来自:开发者社区

深入理解Spark:核心思想与源码分析. 3.8 TaskScheduler的启动

3.8 TaskScheduler的启动 3.6节介绍了任务调度器TaskScheduler的创建,要想TaskScheduler发挥作用,必须要启动它,代码如下。 taskScheduler.start() TaskScheduler在启动的时候,实际调用了backend的start方法。 override def start() {      ...

文章 2017-05-02 来自:开发者社区

《深入理解Spark:核心思想与源码分析》——1.3节阅读环境准备

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第1章,第1.3节阅读环境准备,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.3 阅读环境准备准备Spark阅读环境,同样需要一台好机器。笔者调试源码的机器的内存是8 GB。源码阅读的前提是在IDE环境中打包、编译通过。常用的IDE有IntelliJ IDEA、Eclipse。笔者选择用Eclipse编译....

文章 2017-05-02 来自:开发者社区

深入理解Spark:核心思想与源码分析. 3.7 创建和启动DAGScheduler

3.7 创建和启动DAGScheduler DAGScheduler主要用于在任务正式交给TaskSchedulerImpl提交之前做一些准备工作,包括:创建Job,将DAG中的RDD划分到不同的Stage,提交Stage,等等。创建DAG-Scheduler的代码如下。 @volatile private[spark] var dagScheduler: DAGScheduler = _ &nb...

文章 2017-05-02 来自:开发者社区

《深入理解Spark:核心思想与源码分析》——1.2节Spark初体验

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第1章,第1.2节Spark初体验,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.2 Spark初体验本节通过Spark的基本使用,让读者对Spark能有初步的认识,便于引导读者逐步深入学习。1.2.1 运行spark-shell要运行spark-shell,需要先对Spark进行配置。1)进入Spark....

文章 2017-05-02 来自:开发者社区

深入理解Spark:核心思想与源码分析. 3.6 创建任务调度器TaskScheduler

3.6 创建任务调度器TaskScheduler TaskScheduler也是SparkContext的重要组成部分,负责任务的提交,并且请求集群管理器对任务调度。TaskScheduler也可以看做任务调度的客户端。创建TaskScheduler的代码如下。 private[spark] var (schedulerBackend, taskScheduler) =   &...

文章 2017-05-02 来自:开发者社区

深入理解Spark:核心思想与源码分析. 3.5 Hadoop相关配置及Executor环境变量

3.5 Hadoop相关配置及Executor环境变量 3.5.1 Hadoop相关配置信息 默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下。 val hadoopConfiguration = SparkHadoopUtil.get.newConfiguration(conf) 获取的配置信息包括: 将Amazon S3文件系统的Acces....

文章 2017-05-02 来自:开发者社区

深入理解Spark:核心思想与源码分析. 3.4 SparkUI详解

3.4 SparkUI详解 任何系统都需要提供监控功能,用浏览器能访问具有样式及布局并提供丰富监控数据的页面无疑是一种简单、高效的方式。SparkUI就是这样的服务,它的架构如图3-1所示。 在大型分布式系统中,采用事件监听机制是最常见的。为什么要使用事件监听机制?假如SparkUI采用Scala的函数调用方式,那么随着整个集群规模的增加,对函数的调用会越来越多,最终会受到Driver所在JVM....

文章 2017-05-02 来自:开发者社区

《深入理解Spark:核心思想与源码分析》——1.1节运行环境准备

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第1章,第1.1节运行环境准备,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看 1.1 运行环境准备考虑到大部分公司的开发和生成环境都采用Linux操作系统,所以笔者选用了64位的Linux。在正式安装Spark之前,先要找台好机器。为什么?因为笔者在安装、编译、调试的过程中发现Spark非常耗费内存,如果机器....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注