文章 2022-02-17 来自:开发者社区

EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus

作者:陆路,花名世仪,阿里巴巴计算平台事业部EMR团队高级开发工程师,大数据领域技术爱好者,对Spark、Hive等有浓厚兴趣和一定的了解,目前主要专注于EMR产品中开源计算引擎的优化工作。背景介绍TPC-DS 测试集采用星型和雪花型等多维数据模型,包含 7 张事实表和 17 张维度表,以 store channel 为例,事实表和维度表的关联关系如下所示:分析 TPC-DS 全部 99 个查询....

EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus
文章 2021-11-11 来自:开发者社区

DataWorks_数据开发_EMR Spark节点_计算Pi和对接MaxCompute案例

示例一:spark自带示例项目SparkPi:计算Pi本文以Spark自带示例项目计算Pi为例测试当前EMR Spark环境是否可用,示例详情请参见EMR示例项目使用说明。准备工作:获取spark自带example的jar包spark-examples_2.11-2.4.5.jar存放路径,spark组件安装在/usr/lib/spark-current路径下,登录EMR集群可查询全路径/usr....

DataWorks_数据开发_EMR Spark节点_计算Pi和对接MaxCompute案例
文章 2021-06-04 来自:开发者社区

阿里大数据云原生化实践,EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播 第六期主题:EMR spark on ACK 产品演示及最佳实践讲师:石磊,阿里云 EMR 团队技术专家内容框架:云原生化挑战及阿里实践Spark 容器化方案产品介绍和演示直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/246868一、云原生化挑战及阿里实践大数据技术....

阿里大数据云原生化实践,EMR Spark on ACK 产品介绍
问答 2020-12-28 来自:开发者社区

EMR Spark 云原生规划是什么样的?

EMR Spark 云原生规划是什么样的? 求大佬解答

文章 2020-11-06 来自:开发者社区

EMR Spark on ACK

如上文Apache Spark on ACK介绍,Spark on Kubernetes能给我们带来诸多优点,但社区版的解决方案还不是那么完善,存在以下几个关键问题: Shuffle流程,按照目前的Shuffle方式,我们是没办法打开动态资源特性的。而且还需要挂载云盘,云盘面临着Shuffle数据量的问题,挂的比较大会很浪费,挂的比较小又支持不了Shuffle Heavy的任务。 调度和队列管.....

EMR Spark on ACK
文章 2020-09-04 来自:开发者社区

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳。来自阿里云EMR团队的周克勇将详细介绍Native Codegen框架。本文整理自视频 https://developer.aliyun.com/live/43579 本次分享主要分为三部分,第一做这件事情的动机和背景,第二做的.....

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
文章 2020-07-30 来自:开发者社区

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

主题: EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework 时间: 7月30日 周四 19:00 参与直播方式: 扫描下方钉钉二维码进群,届时是直接观看或届时进入直播间https://developer.aliyun.com/live/43579 议题简介: EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了....

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】
文章 2020-07-30 来自:开发者社区

EMR-DataScience介绍 | Spark“数字人体”AI挑战赛赛题解析二

演讲嘉宾简介:李博(花名:傲海),阿里云人工智能产品专家,从事人工智能行业5年,主要负责人工智能平台类产品化建设工作。 以下内容根据演讲视频以及PPT整理而成。 点击链接观看精彩回放:https://developer.aliyun.com/live/43189 本次分享主要围绕以下两个方面:一、Data Science节点概述二、Data Science原子化组件介绍 一、Data Scien....

EMR-DataScience介绍 | Spark“数字人体”AI挑战赛赛题解析二
文章 2020-06-16 来自:开发者社区

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

作者:周克勇,花名一锤,阿里巴巴计算平台事业部EMR团队技术专家,大数据领域技术爱好者,对Spark有浓厚兴趣和一定的了解,目前主要专注于EMR产品中开源计算引擎的优化工作。 背景和动机 SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划,后者的目的是针对既定的计划尽可能执行的更快。相比于Runtime,Optimizer是更...

 EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
文章 2020-05-26 来自:开发者社区

OSS数据湖实践——EMR + Spark + OSS案例

本文介绍大数据分析引擎spark 基于EMR集群,利用OSS云存储数据,实现一个简单的分析案例。 前提条件 • 已注册阿里云账号,详情请参见注册云账号。• 已开通E-MapReduce服务和OSS服务。• 已完成云账号的授权,详情请参见角色授权。• 已创建Haoop集群,且带有spark组件, 配置好相关的OSS数据源。 步骤一:数据上传至oss hadoop fs -put course2.c....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注