阿里云EMR Serverless Spark Notebook集成DuckDB,支持免密访问OSS/OSS-HDFS并高效操作多种数据格式。
阿里云EMR Serverless Spark Notebook集成了DuckDB,并增强了其与云上数据源的集成能力。用户除了可以免密访问OSS/OSS-HDFS并高效操作多种格式的数据文件外,还可以直接通过SQL查询DLF(数据湖构建)中定义的元数据表,实现对数据湖的一站式、轻量化探索与分析。
Paimon与Spark集成
您可以借助Paimon快速地在HDFS或者OSS上构建自己的数据湖存储服务,然后通过Spark计算引擎实现数据湖的分析。本文为您介绍在EMR中如何通过Spark SQL读取和写入Paimon中的数据。
如何通过SparkSQL对Hudi进行读写操作
E-MapReduce的Hudi 0.8.0版本支持Spark SQL对Hudi进行读写操作,可以极大的简化Hudi的使用成本。本文为您介绍如何通过Spark SQL对Hudi进行读写操作。
Paimon 与 Spark 的集成(二):查询优化
1. Paimon Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念,可以与 Flink / Spark / Trino 等诸多业界主流计算引擎进行对接,共同推进 Streaming Lakehouse 架构的普及和发展。 2. P...
Paimon与Spark的集成(一)
PaimonApache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念,可以与 ApacheFlink / Spark / Trino 等诸多业界主流计算引擎进行对接,共同推进 Streaming Lakehouse 架构的普及和发展。Paimon x SparkAp....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。