阿里云文档 2026-01-30

阿里云EMR Serverless Spark Notebook集成DuckDB,支持免密访问OSS/OSS-HDFS并高效操作多种数据格式。

阿里云EMR Serverless Spark Notebook集成了DuckDB,并增强了其与云上数据源的集成能力。用户除了可以免密访问OSS/OSS-HDFS并高效操作多种格式的数据文件外,还可以直接通过SQL查询DLF(数据湖构建)中定义的元数据表,实现对数据湖的一站式、轻量化探索与分析。

阿里云文档 2025-01-22

Paimon与Spark集成

您可以借助Paimon快速地在HDFS或者OSS上构建自己的数据湖存储服务,然后通过Spark计算引擎实现数据湖的分析。本文为您介绍在EMR中如何通过Spark SQL读取和写入Paimon中的数据。

问答 2024-07-29 来自:开发者社区

在Spark与ODPS集成的上下文中,sparkInstanceId代表什么?

在Spark与ODPS集成的上下文中,sparkInstanceId代表什么?

问答 2024-07-26 来自:开发者社区

dataworks怎么和spark EMR集成开发和运维调度?

dataworks怎么和spark EMR集成开发和运维调度?

阿里云文档 2024-07-05

Hudi与Spark SQL集成后支持哪些DML语句

本文为您介绍Hudi与Spark SQL集成后,支持的DML语句。

问答 2024-06-25 来自:开发者社区

云数据仓库ADB中dms任务编排中spark开发,spark能不能集成adb直接读里面的表?

云数据仓库ADB中dms任务编排中spark开发,spark能不能集成adb直接读里面的表,类似spark on hive?

文章 2024-04-05 来自:开发者社区

Spark 的集成

Paimon 与 Spark 的集成(二):查询优化 在大数据处理领域,Paimon 和 Spark 的集成为我们提供了强大的数据摄入、流式订阅和实时查询能力。本文将详细介绍Paimon在SparkSQL查询性能上的一系列关键优化点,这些优化使得Paimon x Spark在TpcDS上的性能提升了37+%࿰...

问答 2024-03-25 来自:开发者社区

Flink CDC里有没有用cdc 和spark hudi集成的?

有没有用 flink cdc 和spark hudi集成的?

文章 2024-03-22 来自:开发者社区

Paimon 与 Spark 的集成(二):查询优化

1. Paimon Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念,可以与 Flink / Spark / Trino 等诸多业界主流计算引擎进行对接,共同推进 Streaming Lakehouse 架构的普及和发展。 2. P...

Paimon 与 Spark 的集成(二):查询优化
文章 2024-01-19 来自:开发者社区

Spark与云存储的集成:S3、Azure Blob Storage

在现代数据处理中,云存储服务如Amazon S3和Azure Blob Storage已成为存储和管理数据的热门选择。与此同时,Apache Spark作为大数据处理框架也备受欢迎。本文将深入探讨如何在Spark中集成云存储服务,并演示如何与S3和Azure Blob Storage进行互操作。将提供丰富的示例代码,以帮助大家更好地理解这一集成过程。 为什么使用云存储? 云存储服务如S3和A...

Spark与云存储的集成:S3、Azure Blob Storage

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。