E-MapReduce本地盘实例规模数据集测试

数据基准测试用于公平、客观评测不同数据产品/平台的功能和性能,对用户选择合适的大数据平台产品具有重要的参考价值,TPC-DS逐渐成为了业界公认的数据系统测试基准。本文以阿里云E-MapReduce+D1本地盘方案模拟TPC-DS测试的演示方案...

什么是EMR on ACK

阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...

开通DataWorks服务

背景信息 为帮助您快速体验大数据平台的核心场景,每个地域首次开通DataWorks时,平台默认自动在相应地域为您开通MaxCompute按量付费产品(该产品不使用则不收费),并创建服务关联角色 AliyunServiceRoleForDataWorksEngine、...

什么是交通云控平台

交通云控平台是阿里云面向交通行业打造的,可提供地图、数据、智能算法、云边协同、控制下发、视觉渲染六能力的大数据开放平台。产品介绍 交通云控平台为交通行业应用的开发提供图、数、智、控、云、视等能力,交通行业开发者可基于平台...

基于MaxCompute进行大数据BI分析

通过MaxCompute、AnalyticDB MySQL强大的数据加工和分析能力,降低大数据平台建设的门槛,轻松解决了海量数据的计算问题。同时有效降低企业成本,并保障数据安全。与第三方开源生态无缝对接,在不侵入用户应用的情况下,传输日志至日志服务...

互联网、电商行业离线大数据分析

通过阿里云MaxCompute、云数据库RDS MySQL、DataWorks等产品,可以实现互联网、电商网站的离线数据分析,且支持通过DataV大屏展示分析后的业务指标数据。概述 电商网站的销售数据通过大数据进行分析后,可以在屏幕展示销售指标、客户指标...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎,为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能 描述 Dataphin全托管 全托管又称公共云多租户模式,只需购买...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...

数据模型概述

DDM目前支持逻辑模型和物理模型建模,其中物理模型又分为关系型数据模型和非关系型数据模型,支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层,DDM是数据建模工具,支持设置表、字段等物理属性。

准备工作

开通企业数据智能平台 企业数据智能平台默认为关闭状态,使用前需要前往 AnalyticDB PostgreSQL版 控制台开通。登录 云原生数据仓库AnalyticDB PostgreSQL版控制台。...单击左侧导航栏中的 数据平台。单击 开通数据中台。

数据仓库研发规范概述

大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作...

Spark概述

Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统,对接各种数据计算引擎,以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台,高效率完成数据全链路研发流程,建设企业数据治理体系,同时提供优质高效的交流服务,本文为您介绍...

HDFS概述

HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本。HDFS适用于规模数据的分布式读写,特别是读多写少的场景...

准备数据

同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。错误记录数 错误记录数,表示脏数据的最大容忍条数。确认当前节点的配置无误后,单击左上...

多表连接

警告 对数据量比较大的数据表进行笛卡尔连接(不带连接条件的交叉连接),会因数据膨胀造成结果数据量巨大,影响节点的执行耗时,并占用较多的存储空间。连接条件 连接条件指定了两张数据表之间使用哪些字段进行连接,当数据表中某条数据...

发展历程

关键性里程碑 2009年9月,ODPS(即现在的MaxCompute)大数据平台飞天项目正式启动。2010年10月,阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月,平台的单集群规模已达到5000台。2014年7月,平台开始对外提供服务,完全替换...

相关的云服务

本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

EMR Doctor概述

E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源数据集群的智能运维诊断系统。通过EMR Doctor(即集群管理...通过对集群中各种信息进行融合分析,并根据智能算法进行智能诊断分析,减少大数据平台繁重和重复的劳动。

E-MapReduce弹性低成本离线大数据分析

大数据是一项涉及不同业务和技术领域的技术和工具的集合,海量离线数据分析可以应用于多种商业系统环境,例如,电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。离线大数据分析概述 主流的三分布式计算框架...

数据源支持概述

无 有 无 支持数据源的方式 Spark SQL支持数据源的方式包括以下两种:命令行方式 下载预编译好的 数据源JAR包。您只需要使用该JAR包,就可以完成Loghub、TableStore、HBase、JDBC和Redis数据源的实现以及相关的依赖包。Kafka和Druid数据源...

什么是DataWorks

获奖经历 IDC:大数据平台公共云市场份额中国第一 Forrester:全球云数据仓库卓越表现者象限,国内唯一 中国信通院:首个通过577项技术要求的数据平台整体解决方案评测 中国电子学会科技进步特等奖 中国国际软件博览会金奖 浙江省科技进步...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景,其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产,经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式,灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据,确保...

到期提醒与停机策略

本文将为您介绍数据资源平台的到期提醒与停机策略。到期提醒 数据资源平台实例到期前的168小时(7天)、72小时、24小时,系统将会给您发短信,提醒您所购买的实例即将到期。请您及时备份数据或续费,避免影响正常使用。停机策略 数据资源...

加工数据

本文为您介绍如何通过DataWorks加工采集至MaxCompute的数据,并获取清洗后的数据。前提条件 开始本文的操作前,请首先...您可以继续下一个教程,学习如何通过机器学习,载入处理好的数据并构建窃漏电用户的识别模型。详情请参见 数据建模。

应用场景

本文为您介绍数据资源平台的应用场景。构建数据中台,行业领域模型快速沉淀 场景:快速构建数据仓库,有效治理数据质量,实现政企客户各部门数据的业务协同和共享。痛点:以政务服务为例,政务服务部门众多,业务系统复杂、流程长,数据...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

DDL脚本

创建语句 设计好的数据库模型,您可以单击 生成DDL脚本,进入 DDL Script编辑器。在 DDL Script编辑器 页面中,对象过滤 用于过滤需要生成SQL语句的表,类型过滤 用于设置需要生成SQL脚本的表、字段、主外键和分区等选项。单击 产生脚本,...

通用数据开发

说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。数据收集与存储:您需要同步...

分析平台概述

Dataphin提供了简单、快速、高效的数据分析平台,您可通过数据分析对数据仓库中的数据进行洞察、在线查询及可视化分析,提取出有效信息而形成结论,辅助决策。前提条件 需开通智能研发版。分析平台简介 在分析平台上,您可选择您有权限的...

数据集成:全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步...

分析平台概述

Dataphin提供了简单、快速、高效的数据分析平台,您可通过数据分析对数据仓库中的数据进行洞察、在线查询及可视化分析,提取出有效信息而形成结论,辅助决策。前提条件 需开通智能研发版。分析平台简介 在分析平台上,您可选择您有权限的...

什么是数据资源平台

阿里云数据资源平台数据资产定义、加工、管理、服务的全流程平台,提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能,为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

数据建模

本文将为您介绍如何载入DataWorks中处理好的数据到人工智能平台PAI中,构建窃漏电用户的识别模型。前提条件 开始本文的操作前,请首先完成 加工数据 中的操作。新建实验 新建空白工作流并进入工作流,具体操作,请参见 新建自定义工作流。...

购买指引

资源:推荐购买 独享数据集成资源组,以支持更好的同步体验,支持离线同步、实时同步、全增量同步等多种同步解决方案。场景2:老用户升级推荐配置 推荐配置 推荐原因 功能:推荐购买 企业版,企业版具备完整的数据开发治理功能,包含各类...

云产品集成

常见云产品如下:大数据开发治理平台 DataWorks 实时计算 Flink 版 数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现 前提条件 已获取 OceanBase 数据库的基本连接信息,详细步骤请参见 获取连接参数。大数据开发治理平台 ...

管理控制台功能概览

功能模块 您可通过控制台了解DataWorks各模块的功能及使用流程,并快速进入指定工作空间的 数据集成、智能数据建模、数据开发、运维中心、数据质量、数据分析、数据地图、安全中心、数据治理中心、数据服务、管理中心 模块执行相关操作。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据库备份 DBS 数据传输服务 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用