问答 2022-06-13 来自:开发者社区

Spark3.0对SQL引擎进行了哪些优化?

Spark3.0对SQL引擎进行了哪些优化?

文章 2022-02-17 来自:开发者社区

扩展Spark Catalyst,打造自定义的Spark SQL引擎

Apache Spark是大数据处理领域最常用的计算引擎之一,被应用在各种各样的场景中,除了易用的API,稳定高效的处理引擎,可扩展性也是Spark能够得到广泛应用的一个重要原因。Spark中最常见的扩展就是基于DataSource API添加对新数据源的支持,除了Spark内置的HDFS,S3,Kafka等数据源,Parquet,Orc,Avro等数据类型,还有很多第三方的DataSource....

文章 2022-02-15 来自:开发者社区

《Spark大数据分析:核心概念、技术及实践》一1.6 分布式SQL查询引擎

  本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.6节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.6 分布式SQL查询引擎 如前所述,SQL是最常用来查询和分析数据的语言之一。它易学且有群众基础(了解SQL的人远比了解编程语言如Java的人多)。基本上,H...

文章 2022-02-15 来自:开发者社区

使用Spark SQL构建交互式查询引擎

前言 StreamingPro 原来仅仅是用来作为Spark Streaming的一个配置化+SQL封装,然而不经意间,已经涵盖了批处理,交互式查询等多个方面。今天就讲讲如何使用StreamingPro构建一个交互式查询引擎。 准备工作 下载StreamingPro README中有下载地址 如果你使用了 Spark 2.0 版本,则要下载对应页面上的Spark 安装包。因为目前Sp...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注