阿里云文档 2025-09-19

阿里云EMR Serverless Spark Notebook集成DuckDB,支持免密访问OSS/OSS-HDFS并高效操作多种数据格式。

阿里云 EMR Serverless Spark 的 Notebook 会话中引入了 DuckDB 的 Python 库,除了支持 DuckDB 开源版本所具备的所有功能外,还额外提供了免密访问 OSS/OSS-HDFS 的能力,从而能够直接读取 OSS 路径下的文件进行操作。

文章 2025-07-25 来自:开发者社区

阿里云 EMR Serverless Spark:面向 Data+AI 的高性能 Lakehouse 产品

一.业务痛点 在服务了多家企业后,我们总结了共享集群的一些关键痛点。当业务部门同时提交报表生成、BI查询和模型训练任务时,原有的 YARN 集群将面临多重挑战。首先,资源争抢会导致关键任务的延迟,业务方会抱怨数据产出不及时,而在波谷时段又会出现大量资源闲置,但我们仍需为这些闲置资源付费。这种共享集群环境较为脆弱,一旦某个任务失控,可能会导致整个平台瘫痪。其次,这样的集群不利于成...

阿里云 EMR Serverless Spark:面向 Data+AI 的高性能 Lakehouse 产品
文章 2025-06-18 来自:开发者社区

一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进

一.背景介绍 一体系汽配供应链平台(以下简称一体系),专注提供高品质发动机、变速箱、底盘技术零部件,融汇优质实体资源和创新互联网科技,为上游品牌商提供高效的下沉渠道,为下游零售商带来可信赖的产品和服务,让采购更便捷可靠,实现行业数字化转型。 随着企业对实时数据分析、AI 能力和大规模数据处理的需求不断增长,平台数据量庞大且持续增长、数据呈现半结构化...

一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进
文章 2025-06-18 来自:开发者社区

Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速

一.背景介绍 1.行业 流利说是领先的科技驱动的教育公司,公司自主研发了领先的英语口语评测、写作打分引擎和深度自适应学习系统,致力于为用户提供一整套系统性的英语学习解决方案,从听、说、读、写多个维度提升用户的英语水平。 2.业务特征 AI 打分:利用大数据和人工智能算法对用户英语口语评测、写作打分。 个...

Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速
文章 2025-04-29 来自:开发者社区

立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务

作者:厦门立马耀网络科技有限公司大数据开发工程师 陈宏毅 背景介绍 行业 蝉选是蝉妈妈出品的达人选品服务平台。蝉选秉持“陪伴达人赚到钱”的品牌使命,致力于洞悉达人变现需求和痛点,提供达人选高佣、稳变现、速响应的选品服务。 业务特征 个性化推荐:利用大数据和人工智能算法,根据用户的兴趣和行为提供定制化的产品推荐。 数...

立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务
文章 2025-02-28 来自:开发者社区

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

背       景 随着互联网服务的广泛普及与技术应用的深入发展,日志数据作为记录系统活动、用户行为和业务操作的宝贵资源,其价值愈发凸显。然而,当前海量日志数据的产生速度已经远远超出了传统数据分析工具的处理能力,这不仅要求我们具备高效的数据收集和存储机制,更呼唤着强大、灵活且易用的数据分析平台的诞生。在此背景下,Apache  Spark,这一专为...

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
文章 2025-02-19 来自:开发者社区

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

作者:美的楼宇科技事业部 先行研究中心智能技术部 美的楼宇科技 IoT 数据平台建设背景 美的楼宇科技事业部(以下简称楼宇科技)是美的集团旗下五大板块之一,产品覆盖多联机组、大型冷水机组、单元机、机房空调、扶梯、直梯、货梯以及楼宇自控软件和建筑弱电集成解决方案,远销海内外200多个国家。针对当前设备数据量庞大且持续增长、数据呈现半结构化特点的现状,现有系统仅停留在数据存...

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
文章 2025-02-10 来自:开发者社区

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

作者:微财技术研发经理 宋鑫 微财介绍 微财是一家创新型的金融科技企业,凭借多年积累的金融科技能力和数据处理优势,为客户提供消费分期等金融信息服务,致力于成为值得信赖的金融机构合作伙伴。旗下拥有好分期等品牌,为高成长用户提供信用分期借款过程中的综合性信息、技术以及辅助服务。 业务挑战 数据资源是金融科技企业的核心价值,微财依托大数据评估用户借款...

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
文章 2024-11-05 来自:开发者社区

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

1. XGBoost简介 XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在GBDT框架的基础上实现机器学习算法。XGBoost提供了并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。XGBoost最初是一个研究项目,孵化于Distributed (Deep) Machine Learning Community (DMLC) ,由陈天奇博...

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
文章 2024-09-24 来自:开发者社区

阿里云 EMR Serverless Spark 版正式开启商业化

阿里云 EMR Serverless Spark 版已于2024年9月14日正式商业化售卖,本文将简要介绍 EMR Serverless Spark 产品的功能、应用场景、计费模式,及使用限制。 阿里云 EMR Serverless Spark 版是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品。该产品内置 Fusion Engine,100% ...

阿里云 EMR Serverless Spark 版正式开启商业化

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注