MMA概述

MMA迁移作业方案 本文为您介绍Hadoop数据迁移至MaxCompute的两种迁移方案,您可以根据实际情况选择。迁移链路一 专线场景下,支持通过MMA迁移Hive数据至MaxCompute。迁移方案如下所示。迁移链路二 无专线场景下,支持通过闪电立方迁移...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据...

MapReduce

MapReduce处理数据的完整流程如下:输入数据:对文本进行分片,将每片内的数据作为单个Map Worker的输入。分片完毕后,多个Map Worker便可以同时工作。在正式执行Map前,需要将输入数据进行分片。所谓分片,就是将输入数据切分为大小相等的...

基本概念

数据资产:数据资源平台中存在大量的数据表、标签、API等各类数据资产,数据管理者通过数据汇聚、数据治理、数据分析后,需要对整个平台数据进行统一管控,了解平台的核心数据资产,提供对应的数据资产管理规范。统一服务 应用:是调用API...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效...

Serverless Spark概述

传统Spark集群版的方案架构如下所示:但是对于传统Spark集群版,用户首先需要部署一套开源大数据基础组件:Yarn、HDFS、Zookeeper等,可能会存在以下问题:使用门槛高:开发者需要同时熟悉多种大数据组件,才能完成开发与运维相关工作,...

概述

AnalyticDB PostgreSQL版 向量分析可以通过AI算法提取非结构化数据的特征,并利用特征向量作为非结构化数据的唯一标识,帮您快速且低成本地实现对非结构化数据检索和对结构化数据关联分析。向量数据库简介 在现实世界中,绝多数的数据都...

迁移开源HDFS的数据到文件存储 HDFS 版

基于阿里云ECS搭建Hadoop集群(下称"迁移集群"),用于访问 文件存储 HDFS 版 实例和迁移数据,并满足以下条件:迁移集群与 文件存储 HDFS 版 实例在相同区域、相同可用区。迁移集群与 文件存储 HDFS 版 实例的挂载点使用相同阿里云VPC网络...

API实战实践

最佳实践:文件管理OpenAPI基础实践 最佳实践:表管理OpenAPI基础实践 通过OpenAPI创建、修改、删除离线同步任务 最佳实践:数据开发、提交与运行OpenAPI基础实践 最佳实践:数据ETL操作全流程实践 最佳实践:搭建自定义运维大屏 最佳实践...

ETL工作流快速体验

零售电商GMV分析 DataWorks MaxCompute 数据集成 数据开发 基础版 基于DataWorks提供的 智能数据建模 产品,使用该产品内置零售电子商务数仓模型,为您介绍DataWorks在数仓搭建过程中的技术栈及流程实现。案例相关文档:零售电商数据建模。...

发展历程

关键性里程碑 2009年9月,ODPS(即现在的MaxCompute)大数据平台飞天项目正式启动。2010年10月,阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月,平台的单集群规模已达到5000台。2014年7月,平台开始对外提供服务,完全替换...

JindoData版本说明

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...

数据开发功能索引

本文为您介绍DataWorks数据开发(DataStudio)界面的整体布局,以及进行开发操作的主界面(业务流程和节点)中各组件、按钮的功能作用,方便您快速了解及使用数据开发模块。进入数据开发 登录 DataWorks控制台,单击左侧导航栏的 数据建模...

公共节点

公共场景支持计算引擎,提供节点统一定义、版本管理功能,提供在各个数据加工场景中跨存储/计算平台复用的能力,通过节点版本管理,定制适合不用业务或时期的数据加工流程,提高数据开发效率。操作步骤 登录 数据资源平台控制台。在页面...

应用场景

数据传输服务DTS(Data Transmission Service)支持数据迁移、数据订阅和数据实时同步功能,帮助您实现多种典型应用场景。不停机迁移数据库 传输方式:数据迁移 为了保证数据的一致性,传统的迁移过程需要您在迁移数据时停止向源数据库写入...

概览

AnalyticDB PostgreSQL版 提供多种数据迁移方案,可满足不同的数据同步或迁移的业务需求,您可以在不影响业务的情况下,平滑地与各种类型的数据库实例进行迁移或数据同步。迁移数据到AnalyticDB PostgreSQL版 迁移类型 文档 简介 是否支持...

使用JindoFS加速OSS文件访问

背景信息 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用和AI应用等。有关Fluid的更多介绍,请参见 数据加速Fluid概述。JindoRuntime来源于阿里云EMR团队JindoFS...

创建集群

通过阿里云E-MapReduce(简称EMR),您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架,以进行规模数据处理和分析等操作。本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置,帮助您快速搭建和管理大数据集群。...

创建EMR MR节点

在EMR任务开发中,通过创建EMR(E-MapReduce)MR节点,可将规模数据集分为多个Map任务以并行处理,加速数据集的并行运算。本文将以创建EMR MR节点实现从OSS中读取文本,并统计文本中的单词数为例,为您展示EMR MR节点的作业开发流程。...

搭建与管理(基于DLF和OSS)

创建外部数据湖连接 参数 说明 异构数据平台类型 阿里云E-MapReduce/Hadoop集群:通过MaxCompute与Hadoop构建湖仓一体。阿里云DLF+OSS数据湖连接:通过MaxCompute和DLF和OSS构建湖仓一体。阿里云DLF+OSS数据湖连接 External Project描述 可...

Delta Lake概述

Delta Lake以数据为中心,围绕数据流走向(数据从流入数据湖、数据组织管理和数据查询到流出数据湖)推出了一系列功能特性,协助您搭配第三方上下游工具,搭建快捷、易用和安全的数据湖。背景信息 通常的数据湖方案是选取大数据存储引擎...

数据治理中心概述

数据治理中心可自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题,并通过健康分量化评估,从全局、工作空间、个人等多个视角,以治理报告及排行榜呈现治理成果,帮助您高效达成治理目标。同时,提供...

OSS/OSS-HDFS概述

特性 通过JindoSDK使用OSS和OSS-HDFS的特性对比如下:场景 特性 OSS OSS-HDFS 大数据场景(Hadoop)支持目录、文件语义和操作 支持 支持 添加目录、文件权限 不支持 支持 目录原子性、rename性能 支持,但性能不佳 支持,毫秒级 通过...

Spark Connector

为了更好地融入大数据生态,MaxCompute开放了存储组件(Storage API),通过调用Storage API直接访问MaxCompute底层存储,有助于提高第三方引擎访问MaxCompute数据的速度与效率。本文为您介绍如何使用第三方计算引擎Spark通过Spark ...

准备环境

本教程以用户画像分析为例,通过使用DataWorks完成数据采集、数据加工、质量监控的全流程操作。为保证您可以顺利完成本教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。前提条件 大数据开发治理平台...

产品优势

本文介绍 云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息 云原生多模数据库 Lindorm 兼容...生态 开源大数据生态Hadoop/Spark等、阿里云数据生态 开源大数据生态Hadoop/Spark等 易用性 免运维,维护简单 有状态服务,维护较复杂

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构如下所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

迁移流程

操作系统发行商维护支持 数据库 MySQL 使用推荐的操作系统版本提供的自带版本 操作系统发行商维护支持 Redis 使用推荐的操作系统版本提供的自带版本 操作系统发行商维护支持 大数据 Hadoop Hadoop 3.3.1 对应社区支持 Spark Spark 3.2 对应...

生态集成

云原生数据仓库AnalyticDB PostgreSQL版 具备完善和开放的生态系统,支持无缝对接业界以及阿里云生态的数据管理工具,BI报表可视化工具,ETL工具,数据迁移工具,同时可以与业界流行的流式处理系统,日志类系统,大数据类系统,传统数仓及...

2021年

2021-09-14 华南1金融云(深圳)无 MaxCompute 支持访问开启Kerberos 认证授权机制的 Hadoop集群 部分企业的Hadoop的生产集群开启了 Kerberos认证授权机制,本次功能升级能够利用MaxCompute访问开启Kerberos认证授权机制的 Hadoop集群,...

Spark Load

Spark Load通过外部的Spark资源实现对导入数据的预处理,提高StarRocks大数据量的导入性能并且节省StarRocks集群的计算资源。Spark Load主要用于初次迁移、大数据量导入StarRocks的场景(数据量可到TB级别)。本文为您介绍Spark Load导入的...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

扩展程序概述

产品能力 DataWorks作为阿里云一站式大数据开发与治理平台,在各项能力支持上预设了很多拓展点,例如,在标准模式下,简略来看,节点创建后完成代码开发后,需先提交到开发环境中进行验证,完成后再正式发布到生产环境中,后续每天根据调度...

数据服务入门

步骤一:创建数据源并配置网络连通性 使用数据服务创建API前,您需将数据库或数据仓库添加为DataWorks的数据源,并保障数据服务资源组与您的目标数据源网络连通,以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

产品优势

多场景支持:支持离线数仓搭建、数仓提速、离线数据分析、数据中台搭建规模数据集成、离线计算、异构数据集成等。低门槛:近乎零代码,简单配置连线后即可满足各项离线数据集成任务,同时任务支持复杂调度。基于资产的虚拟湖:配合数据...

功能概览

数据管理DMS是一款支撑数据全生命周期的一站式数据管理平台,致力于帮助企业快速挖掘数据价值,助力企业数字化转型。一级模块 二级模块 三级模块 功能描述 相关文档 首页 实例导航栏 新增实例 支持DBA、管理员录入新实例。云数据库录入 ...

功能发布记录(2023年)

2023-12 功能名称 功能描述 发布时间 发布地域 使用客户 相关文档 数据开发(DataStudio)绑定数据源 若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发(DataStudio)...

创建通用项目

数据权限审批 数据权限审批策略可根据不同的数据等级指定不同的审批规则,能使审批人员着重于高敏感数据,对于公开的数据,可免除审批,从而降低权限审批的负担。更多信息,请参见 数据权限配置。资产安全策略 安装后可使用数据安全策略,...

E-MapReduce弹性低成本离线大数据分析

离线大数据分析概述 主流的三分布式计算框架系统分别为Hadoop、Spark和Storm:Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集。Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流...

使用Kettle调度MaxCompute

Kettle支持丰富的输入输出数据源,数据库支持Oracle、MySQL、DB2等,也支持各种开源的大数据系统,例如HDFS、HBase、Cassandra、MongoDB等。您可以在Kettle中通过创建Job的方式连接MaxCompute项目,并按照ETL流程调度作业。前提条件 在执行...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 数据库备份 云数据库 RDS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用