问答 2022-08-03 来自:开发者社区

Spark架构中的Driver Program有什么用吗?

Spark架构中的Driver Program有什么用吗?

文章 2022-06-13 来自:开发者社区

大数据组件-Spark高可用架构部署

 编辑‍博主介绍:大家好,我是芝士味的椒盐,一名在校大学生,热爱分享知识,很高兴在这里认识大家擅长领域:Java、大数据、运维、电子如果本文章各位小伙伴们有帮助的话,关注+点赞+评论+收藏,相应的有空了我也会回访,互助!!!另本人水平有限,旨在创作简单易懂的文章,在文章描述时如有错,恳请各位大佬指正,在此感谢!!! 解压sudo tar -zxf ~/download/spa....

大数据组件-Spark高可用架构部署
文章 2022-06-11 来自:开发者社区

【Spark MLlib】(一)架构解析(包含分类、回归、聚类和协同过滤)

文章目录一、前言二、MLlib的底层基础解析三、MLlib的算法库分析四、MLlib的实用程序分析一、前言从以下架构图可以看出MLlib主要包含三个部分:底层基础:包括Spark的运行库、矩阵库和向量库;算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;实用程序:包括测试数据的生成、外部数据的读入等功能。二、MLlib的底层基础解析底层基础部分主要包括向量接口和矩阵接口,这两种接口都....

【Spark MLlib】(一)架构解析(包含分类、回归、聚类和协同过滤)
文章 2022-06-11 来自:开发者社区

【Spark Streaming】(一)架构及工作原理

文章目录一、简介二、流处理架构三、Micro-Batch Architecture四、工作原理4.1 Streaming Context4.2 DStream4.3 Input DStreams & Receivers五、DStream 操作六、Spark Streaming 架构七、Key Points for InputStream八、Sources of Spark Streami....

【Spark Streaming】(一)架构及工作原理
文章 2022-06-09 来自:开发者社区

【Spark】(三)Spark 架构原理和RDD使用详解2

四、RDD编程APISpark支持两个类型(算子)操作:Transformation和Action4.1 Transformation4.2 Action4.3 Spark WordCount代码编写使用maven进行项目构建(1)使用scala进行编写查看官方网站,需要导入2个依赖包详细代码SparkWordCountWithScala.scalaimport org.apache.spark....

【Spark】(三)Spark 架构原理和RDD使用详解2
文章 2022-06-09 来自:开发者社区

【Spark】(三)Spark 架构原理和RDD使用详解1

文章目录一、Spark 架构原理1.1 Spark架构核心组件1.2 各部分功能图二、RDD概述2.1 什么是RDD?2.2 RDD具体包含了一些什么东西?2.3 RDD的五大特性2.4 RDD可以从哪来2.5 WordCount粗图解RDD三、RDD的创建方式3.1 通过读取文件生成的3.2 通过并行化的方式创建RDD3.3 其他方式四、RDD编程API4.1 Transformation4.....

【Spark】(三)Spark 架构原理和RDD使用详解1
文章 2022-05-23 来自:开发者社区

Spark的通讯架构

Spark通信架构概述Spark2.x版本使用Netty通讯框架作为内部通讯组件。spark 基于netty新的rpc框架借鉴了Akka的中的设计,它是基于Actor模型,如下图所示:Spark通讯框架中各个组件(Client/Master/Worker)可以认为是一个个独立的实体,各个实体之间通过消息来进行通信。具体各个组件之间的关系图如下:Endpoint(Client/Master/Wor....

Spark的通讯架构
文章 2022-05-12 来自:开发者社区

Spark Streaming架构原理详解!(二)

五、Spark Streaming基于HDFS的实时计算开发基于HDFS文件的实时计算,其实就是,监控一个HDFS目录,只要其中有新文件出现,就实时处理。相当于处理实时的文件流。streamingContext.fileStream<KeyClass, ValueClass, InputFormatClass>(dataDirectory) streamingContext.str.....

Spark Streaming架构原理详解!(二)
文章 2022-05-12 来自:开发者社区

Spark Streaming架构原理详解!(一)

一、Spark Streaming功能介绍(1)概述Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理.Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TC....

Spark Streaming架构原理详解!(一)
文章 2022-02-17 来自:开发者社区

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构 】

议题: Tablestore结合Spark的云上流批一体大数据架构 直播间直达(回看)链接: https://developer.aliyun.com/live/1716 简介: 传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以及结构化数据结合D....

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构 】

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注