阿里云文档 2025-09-19

阿里云EMR Serverless Spark Notebook集成DuckDB,支持免密访问OSS/OSS-HDFS并高效操作多种数据格式。

阿里云 EMR Serverless Spark 的 Notebook 会话中引入了 DuckDB 的 Python 库,除了支持 DuckDB 开源版本所具备的所有功能外,还额外提供了免密访问 OSS/OSS-HDFS 的能力,从而能够直接读取 OSS 路径下的文件进行操作。

阿里云文档 2025-06-05

使用Hadoop命令操作OSS/OSS-HDFS

在使用阿里云EMR Serverless Spark的Notebook时,您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

阿里云文档 2025-04-02

如何通过在CDP集群中部署JindoSDK4.5.0访问OSS-HDFS服务相关操作

本文介绍如何通过在CDP集群中部署JindoSDK(4.5.0),访问OSS-HDFS服务相关操作。

阿里云文档 2024-10-28

Spark读写OSS-HDFS数据源

云原生数据仓库 AnalyticDB MySQL 版Spark支持访问OSS-HDFS数据源,本文介绍如何使用Spark来操作OSS-HDFS数据。

文章 2024-08-28 来自:开发者社区

Hadoop生态系统概览:从HDFS到Spark

引言 Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。 Hadoop核心组件 HDFS (Hadoop Distrib...

文章 2023-12-25 来自:开发者社区

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark:Java大师的大数据研究之旅

作为一位Java大师,我始终追求着技术的边界,最近我将目光聚焦在大数据领域。在这个充满机遇和挑战的领域中,我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从"是什么"、"为什么"和"怎么办"三个角度,系统地介绍这些技术。是什么?HadoopHadoop是一个开源的分布式计算框架,它能够高效地处理大规模数据集。它的核心是分布式文件系统HDFS和分布式计算模型MapRe....

阿里云文档 2023-10-08

Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据

本文介绍Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据。

问答 2023-01-15 来自:开发者社区

可否在后面总结RDS(hdfs spark presto)那里加上对emr-impala 的补充?

可否在后面总结RDS(hdfs spark presto)那里加上对emr-impala 的补充?

文章 2022-11-07 来自:开发者社区

大数据编程实验一:HDFS常用操作和Spark读取文件系统数据

一、前言这是我们大数据专业开设的第二门课程——大数据编程,使用的参考书是《Spark编程基础》,这门课跟大数据技术基础是分开学习的,但这门课是用的我们自己在电脑上搭建的虚拟环境进行实验的,不是在那个平台上,而且搭建的还是伪分布式,这门课主要偏向于有关大数据编程方面的,而且使用的编程语言是Python。我上课的时候也没有怎么听,所以我再自己做一遍实验。二、实验目的与要求掌握在Linux虚拟机中安装....

大数据编程实验一:HDFS常用操作和Spark读取文件系统数据
问答 2022-07-01 来自:开发者社区

hdfs上的数据导入到clickhouse用什么方式最快呢?spark通过jdbc导入,还是hdfs

hdfs上的数据导入到clickhouse用什么方式最快呢?spark通过jdbc导入,还是hdfs表引擎创建一个ck表,然后再转为mergeTree ?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注