阿里云文档 2026-05-06

使用Hadoop命令操作OSS/OSS-HDFS

在使用阿里云EMR Serverless Spark的Notebook时,您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

阿里云文档 2025-04-03

如何通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架,拥有Hadoop MapReduce所具有的计算优点,能够通过内存缓存数据为大型数据集提供快速的迭代功能。与MapReduce相比,减少了中间数据读取磁盘的过程,进而提高了处理能力。本文介绍如何通过ES-Hadoop实现Hadoop的Spark服务读写阿里云Elasticsearch数据。

阿里云文档 2023-09-13

如何在EMR的Hadoop集群中运行Spark作业对接DataHub数据_EMR on ECS_开源大数据平台 E-MapReduce(EMR)

本文介绍如何在E-MapReduce的Hadoop集群,运行Spark作业消费DataHub数据、统计数据个数并打印出来。

文章 2019-05-01 来自:开发者社区

老司机告诉你大数据开发:学Hadoop好还是Spark好?

相信看这篇文章的你们,都和我一样对Hadoop和Apache Spark的选择有一定的疑惑,今天查了不少资料,我们就来谈谈这两种 平台的比较与选择吧,看看对于工作和发展,到底哪个更好。 一、Hadoop与Spark 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互...

文章 2019-04-29 来自:开发者社区

大数据开发是先学习Hadoop还是spark,看10万程序猿所留下的结论

首先,我先申明:任何以『做大数据好像挣得多』为名学习数据科学相关的内容都是不谨慎,而且难以有回报的。而且,任何『只要学会一两种工具就能做大数据』的想法也都是盲目的,难有成效的。 从目前我遇到过的面试者和看过的简历来看,凡是没有过大数据项目经验的人,简历写出花来都是扯淡。部署一个集群,装一个Hive,HBase什么的根本就不叫大数据(有的公司甚至部署Hadoop只用HDFS,每天处理5GB数据,这....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注