EMR Spark-SQL性能极致优化揭秘 概览篇
作者:林学维,阿里云智能EMR团队技术专家,目前主要专注于EMR产品中开源计算引擎的优化工作 引子 最近阿里云 E-MapReduce 团队在 TPCDS-Perf 榜单中提交了最新成绩,相比第二名(其实也是 EMR 团队于 2019 年提交的记录),无论从性能还有性价比都取得了 2 倍+的优秀成绩!详细看 TPCDS Perf 阿里云 E-MapReduce 团队,除了在产品、易用性、安全...
EMR Spark-SQL性能极致优化揭秘 概览篇
引子 最近阿里云 E-MapReduce 团队在 TPCDS-Perf 榜单中提交了最新成绩,相比第二名(其实也是 EMR 团队于 2019 年提交的记录),无论从性能还有性价比都取得了 2 倍+的优秀成绩!详细看 TPCDS Perf 阿里云 E-MapReduce 团队,除了在产品、易用性、安全性等维度上投入了大量的研发资源和精力,打造了 EMR 这样一个广受好评的大数据产品;在引擎层面上.....
从S3事件触发AWS EMR Spark作业
我正在考虑使用AWS EMR Spark对存储在S3上的非常大的Parquet文件运行Spark应用程序。这里的总体流程是Java进程会将这些大文件上传到S3,我想在这些文件上自动触发运行Spark作业(注入了上载文件的S3键名)。 理想情况下,可以使用基于S3的EMR触发器进行连线;也就是说,我将EMR / Spark配置为“侦听” S3存储桶,并在对该存储桶进行upsertis操作时启动S.....
1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】
主题: 使用Apache SuperSet和EMR Spark打造交互式的数据探索平台 点击这里是直播间直达链接(回看链接) 时间1月9日:19:00-20:00 直播介绍:本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。 主讲人:李呈祥,花名司麟,阿里云智能....
通过EMR Spark Streaming实时读取Tablestore数据
本文将介绍如何在E-MapReduce中实时流式的处理Tablestore中的数据。 场景设计 随着互联网的发展,企业中积累的数据越来越多,数据的背后隐藏着巨大的价值,在双十一这样的节日中,电子商务企业都会在大屏幕上实时显示订单总量,由于订单总量巨大,不可能每隔一秒就到数据库中进行一次SQL统计,此时就需要用到流计算,而传统的方法都是需要借助Kafka消息队列来做流式计算,数据订单需要写入数据库....
EMR Spark Relational Cache 利用数据预组织加速查询
作者:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。 Relational Cache相关文章链接:使用Relational Cache加速EMR Spark数据分析使用EMR Spark Relational Cache跨集群同步数据EMR Spark Relational Cache的执行计划重写EMR Spark Relati.....
EMR Spark Relational Cache 利用数据预组织加速查询
Relational Cache相关文章链接: 使用Relational Cache加速EMR Spark数据分析使用EMR Spark Relational Cache跨集群同步数据EMR Spark Relational Cache的执行计划重写EMR Spark Relational Cache如何支持雪花模型中的关联匹配 背景 在利用Relational Cache进行查询优化时,我们需....
海量监控日志基于EMR Spark Streaming SQL进行实时聚合
作者:伯箫,阿里云高级开发工程师。现在在阿里云表格存储团队,负责管控系统的开发,对NOSQL类数据库系统有一些了解。 前言 从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,.....
海量监控日志基于EMR Spark Streaming SQL进行实时聚合
前言 从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,将流计算结果数据实时写入Tablestore,展示一个简单的日志监控场景。 场景设计 假设有一个商品表Goods,商品信....
EMR Spark Runtime Filter性能优化 | 7月5号云栖夜读
点击订阅云栖夜读日刊,专业的技术干货,不容错过! 阿里专家原创好文 1.EMR Spark Runtime Filter性能优化 Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
apache spark您可能感兴趣
- apache spark报错
- apache spark任务
- apache spark yarn
- apache spark开源
- apache spark学习
- apache spark架构
- apache spark节点
- apache spark日志
- apache spark程序
- apache spark Python
- apache spark SQL
- apache spark streaming
- apache spark数据
- apache spark Apache
- apache spark Hadoop
- apache spark大数据
- apache spark rdd
- apache spark MaxCompute
- apache spark集群
- apache spark运行
- apache spark summit
- apache spark模式
- apache spark分析
- apache spark flink
- apache spark Scala
- apache spark机器学习
- apache spark应用
- apache spark实战
- apache spark技术
- apache spark操作
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
+关注