文章 2024-10-25 来自:开发者社区

利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark

随着信息时代的到来,大数据已经成为企业决策、科学研究和技术创新的重要驱动力。Apache Spark作为一个快速、通用的大数据处理引擎,广泛应用于各种大数据场景。然而,对于.NET开发者来说,如何在Spark生态系统中发挥自己的专长,将.NET的优势与Spark的能力结合起来,是一个值得探讨的话题。本文将介绍.N...

文章 2022-02-17 来自:开发者社区

[翻译]Spark on MR3——运行 Apache Spark 的新方式

此文是对 Spark on MR3 资料的翻译原文链接:https://www.datamonad.com/post/2021-08-18-spark-mr3/代码链接:https://github.com/mr3project/spark-mr3MR3 是一个通用的执行引擎,原生支持 Hadoop 和 Kubernetes。虽然 Hive on MR3 是主要应用,但 MR3 也可以轻松执行 ....

[翻译]Spark on MR3——运行 Apache Spark 的新方式
文章 2022-02-17 来自:开发者社区

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

2019阿里云峰会·上海开发者大会于7月24日盛大开幕,在本次峰会的开源大数据专场上,阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。 开源大数据专场PPT下载 以下内容根据演讲视频以及PPT整理而成。 自2009年伯.....

文章 2022-02-17 来自:开发者社区

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

直播间直达链接:(回看链接) 时间 7月31日19:00 主讲人: 辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作 简介: 在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据....

文章 2022-02-17 来自:开发者社区

7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】

直播间直达链接:(回看链接) https://tianchi.aliyun.com/course/live?spm=5176.12282027.0.0.5622379ccY33Rf&liveId=41070 时间 7月24日19:00 主讲人: 诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开....

文章 2022-02-17 来自:开发者社区

#Apache spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and will be followed by a Q&A session.The Apache Spark 2.4 c....

文章 2022-02-17 来自:开发者社区

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark系列技术直播第六讲 【 What's New in Apache Spark 2.4? 】 Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.4 release and the upcoming releases and wi....

文章 2022-02-16 来自:开发者社区

Spark 概念学习系列之Apache Spark是什么?(一)

简单地说,        Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台,它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、 流处理和图计算等多种计算范式,是大数据系 统领域的全栈计算平台。       Spark是基于内存计算的大数据并行计算框架。 Spark基于内存计算,提高了在大数据环境...

文章 2022-02-16 来自:开发者社区

Spark 概念学习系列之Apache Spark 架构详解(十)(必须好好理解悟透)

Spark的架构图如下:                        分别解释   1、Driver:运行 Application 的 main() 函数并且创建 SparkContext。   2、Client:用户提交作业的客户端。(类似于Hadoop里的Client)   3、Worker:集群中任何可以运行 Applicatio...

Spark 概念学习系列之Apache Spark 架构详解(十)(必须好好理解悟透)
文章 2022-02-16 来自:开发者社区

《Spark与Hadoop大数据分析》——第3章 深入剖析Apache Spark

第3章 深入剖析Apache Spark Apache Spark 的技术、社区和用户群都在快速增长。2015 年推出了两个新的API:DataFrame API 和 DataSet API。这两个 API 构建在基于 RDD 的核心 API 之上。我们有必要了解 RDD 的更深层概念,包括运行时的架构和它在 Spark 各种资源管理器上的表现。 本章分为以下子主题:

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注