阿里云文档 2024-11-14

创建EMR Trino节点

Trino是一个开源的分布式SQL查询引擎,适用于多数据源交互式分析查询。您可以通过创建EMR(E-MapReduce)Trino节点,完成海量多维数据聚合或报表分析。详情请参见Trino概述。

阿里云文档 2024-11-13

DataWorks中EMR Serverless Spark版本的用户画像分析的加工数据阶段

本文为您介绍如何用Spark SQL创建外部用户信息表ods_user_info_d_spark以及日志信息表ods_raw_log_d_spark访问存储在私有OSS中的用户与日志数据,通过DataWorks的EMR Spark SQL节点进行加工得到目标用户画像数据,阅读本文后,您可以了解如何通过Spark SQL来计算和分析已同步的数据,完成数仓简单数据加工场景。

阿里云文档 2024-11-13

DataWorks中EMR Serverless Spark空间流程的环境准备

本教程以用户画像为例,在华东2(上海)地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的 EMR Serverless Spark空间、DataWorks工作空间,并进行相关的环境配置。

文章 2024-11-13 来自:开发者社区

DataWorks on EMR StarRocks,打造标准湖仓新范式

在大数据领域,数据仓库和实时分析系统扮演着至关重要的角色。DataWorks 基于大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为用户带来智能化的数据开发和分析体验。而阿里云提供的 EMR Serverless StarRocks 全托管服务(下文简称 StarRocks),专注于实时分析场景,可提供高性能、全场景、极速统一的数据分析体验。 目前,...

DataWorks on EMR StarRocks,打造标准湖仓新范式
阿里云文档 2024-10-24

DataWorks中如何同步数据至EMR Serverless Spark

本教程以MySQL数据源中的用户基本信息ods_user_info_d表和HttpFile中的网站访问日志数据user_log.txt文件为例,通过数据集成离线同步任务分别同步至私有OSS中,再通过Spark SQL创建外部表来访问私有OSS数据存储。本章节旨在完成数据同步操作。

问答 2024-08-21 来自:开发者社区

DataWorks把emr数据源删了再重新创建发现就这样了,后面这个项目空间没删就可以选?

DataWorks把emr数据源删了再重新创建发现就这样了,后面这个项目空间没删就可以选?

问答 2024-08-21 来自:开发者社区

有个dataworks空间已经重新绑定了一个EMR数据源,但是任务一直示:该文件对应引擎实例已失效?

有个dataworks空间已经重新绑定了一个EMR数据源,但是任务一直示:该文件对应引擎实例已失效,请重新选择可用的引擎实例。是为什么呀?

问答 2024-08-06 来自:开发者社区

Dataworks on EMR服务中 ,EMR集群的日常管理和维护工作主要由阿里云负责吗?

Dataworks on EMR服务中 ,EMR集群的日常管理和维护工作主要由阿里云负责吗?

问答 2024-08-05 来自:开发者社区

dataworks为啥只能读 maxcomputer 不能读 emr 呢?

dataworks为啥只能读 maxcomputer 不能读 emr 呢?

问答 2024-08-05 来自:开发者社区

dataworks能不能把某个数据集从 emr 跑出来以后导入 pai 里面使用?

dataworks能不能把某个数据集从 emr 跑出来以后导入 pai 里面使用?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐