阿里云文档 2025-04-03

如何通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架,拥有Hadoop MapReduce所具有的计算优点,能够通过内存缓存数据为大型数据集提供快速的迭代功能。与MapReduce相比,减少了中间数据读取磁盘的过程,进而提高了处理能力。本文介绍如何通过ES-Hadoop实现Hadoop的Spark服务读写阿里云Elasticsearch数据。

文章 2023-09-05 来自:开发者社区

深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本数据湖分析

文/李少锋阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版是基于湖仓一体架构打造的实时湖仓。本文将分享AnalyticDB MySQL Spark助力构建低成本数据湖分析的最佳实践。全文目录:AnalyticDB MySQL介绍AnalyticDB MySQL Serverless Spark核心优化基于AnalyticDB MySQL湖仓版的最佳实践*文章转载自DataFunT....

深度干货|谈谈阿里云AnalyticDB Spark如何构建低成本数据湖分析
问答 2023-07-05 来自:开发者社区

我公司现在要把azure上的Kafka集群和spark集群迁移到阿里云上 能直接通过服务器迁移中心

我公司现在要把azure上的Kafka集群和spark集群迁移到阿里云上 能直接通过服务器迁移中心搞定吗 或者还需要配合别的什么迁移吗

文章 2022-10-28 来自:开发者社区

Spark on k8s 在阿里云 EMR 的优化实践

导读:随着大数据技术的发展,Spark 成为当今大数据领域最受关注的计算引擎之一。在传统的生产环境中,Spark on YARN 成为主流的任务执行方式,而随着容器化概念以及存算分离思想的普及,尤其是 Spark3.1 版本下该模式的正式可用(GA),Spark on K8s 已成燎原之势。今天的介绍会围绕下面两点展开:Spark on K8s 的基础概念和特性Spark on K8s 在阿里云....

Spark on k8s 在阿里云 EMR 的优化实践
文章 2022-09-16 来自:开发者社区

Spark读取阿里云OSS指定目录下文件名写入Maxcomputer

1.概述最近刚好有个需求,需要将阿里云对象存储OSS里的视频文件名称拿出来,以便数仓这边输出使用。其实方法有很多Java、Python都可以使用,因本人使用阿里云DataWorks+Maxcomputer,且Maxcomputer可以直接使用ODPS Spark,所以这里采用Spark读取2.实现1.通过IntelliJ IDEA工具首先先创建一个工程,这里就不详细展开怎么创建了;导入需要的依赖....

问答 2022-08-02 来自:开发者社区

阿里云在哪些国际Region 推出了 Spark 服务?

阿里云在哪些国际Region 推出了 Spark 服务?

文章 2022-02-17 来自:开发者社区

X-Pack Spark对接阿里云日志服务LogHub

概述X-Pack Spark分析引擎是基于Spark提供的复杂分析、流式处理、机器学习的能力。Spark分析引擎可以对接阿里云的多种数据源,例如:云HBase数据库、MongoDB、Phoenix等,同时也支持对接阿里云日志服务LogHub。阿里云日志服务(Log Service,简称LOG)是针对实时日志数据的一站式服务,提供日志类数据采集、消费、投递及查询分析功能,全面提升海量日志处理和分析....

文章 2021-12-04 来自:开发者社区

阿里云天池Apache Spark落幕:AI医疗进入落地实践深水期,达摩院如何用生态破局?

10 月 10 日,AI 医疗行业最高规格赛事——阿里云、英特尔(中国)有限公司联合主办的 Apache Spark AI 在杭州落下帷幕。脊柱外科疾病已经越来越困扰着老年人及久坐的上班一族,脊柱病变发展缓慢且不明显,长此以往会压迫神经和血管,甚至造成大脑指挥失灵。此次比赛正是瞄准脊柱外科疾病,参与者需要提供提供全自动算法来定位锥体、椎间盘的位置和相应分类以帮助筛查病例。比赛历时 121 天,覆....

阿里云天池Apache Spark落幕:AI医疗进入落地实践深水期,达摩院如何用生态破局?
文章 2020-10-10 来自:开发者社区

阿里云云原生数据湖分析DLA Serverless Spark重磅发布,助力企业低成本挖掘OSS数据价值

一、背景概述 1.1 什么样的客户需要数据湖 在数据处理领域,数据湖相对来说是一个比较新的概念,它的提出可以很好地帮助企业应对当前数据场景越来越多、数据结构越来越复杂、数据处理的需求越来越多样化的问题。传统的单机数据库技术倾向于大一统,一个数据库可以解决数据存储、在线交易、在线分析、离线报表等功能,好处是简单,数据只有一份,缺点是各个功能都做了取舍,很难解决规模的问题。为了突破数据规模的瓶颈,大....

阿里云云原生数据湖分析DLA Serverless Spark重磅发布,助力企业低成本挖掘OSS数据价值
问答 2020-06-16 来自:开发者社区

阿里云提交spark集群运行

在阿里云上提交spark运行之后 出现如下报错,说是sparkdriver找不到后面跟的是该主机的私网ip请问这是怎么回事

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注