大数据主要是做什么的-大数据主要是做什么的文档介绍内容-阿里云

概述

业务挑战大部分阿里云用户会将阿里云关系型数据库RDS、PolarDB for MySQL、MongoDB或者云服务器ECS自建数据库作为业务系统数据库，随着业务数据的增长，业务数据库存储的数据也越来越多。但RDS、PolarDB for MySQL、MongoDB或者ECS自建...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

生成测试数据

模拟生成数据量指定需要生成的数据量。默认值：1000 条数据，最多生成不超过 100W 行数据，所以用户可以在文本框中输入 1\~1000000 间的任意正整数。批处理大小指定每生成多少条数据进行一次提交（COMMIT 命令）操作。默认每生成 200 条...

功能简介

数据管理：展示并管理用户添加的数据，主要功能包括数据表引入、本地数据导入。数据配置：展示并管理用户添加的计算资源。算子中心算子中心包含算子管理、算子配置。算子管理：展示并管理用户添加的脚本算子，已添加的算子可在模型画布中...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。本文主要...

互联网、电商行业离线大数据分析

方案优势大规模存储：超大规模存储且自动扩容，最大可以支持EB级别的数据。高性能：性能更加高效、稳定。低成本：与自建数据库进行分析相比，成本更低。安全：原生的多租户系统，以工作空间进行隔离，所有计算任务在安全沙箱中运行。可视...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

受众与核心能力

产品定位 DataWorks致力于为数据开发者、数据分析师、数据资产管理者，打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台，即可实现数据...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

什么是DataWorks

产品架构 DataWorks十多年沉淀数百项核心能力，通过智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力，帮助企业治理内部不断上涨的“数据悬河”，释放企业的数据生产力。...

创建数据流

您可以通过分区键中的值，快速查找您需要的数据。说明已配置数据输入节点和连接各节点，您才能选择分区键。将鼠标放在数据过滤节点上，单击节点右侧出现的空心圆点并拉出连接线，连接至数据输出节点上。此时，节点的自动消失，表示...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

创建RDS MySQL数据订阅通道

如果订阅的源数据库还处于其他任务中（例如该数据库还存在于某个正在运行的数据迁移任务中），您可能会订阅到订阅对象以外的数据，此类场景中，您需要手动在订阅客户端中过滤掉不需要的数据。操作步骤购买数据订阅通道，详情请参见购买...

升级数据库大版本

本文介绍云数据库MongoDB支持升级的数据库大版本以及如何升级数据库大版本。注意事项升级分片集群实例的数据库大版本时，实例的协议类型需为 MongoDB协议。升级采用轮转升级的方式进行，升级过程中会自动对实例进行2~3次重启，请在业务低...

配置跨库Spark SQL节点

任务编排中的跨库Spark SQL节点，主要针对各类跨库数据同步和数据加工场景，您可以通过编写Spark SQL，完成各种复杂的数据同步或数据加工的任务开发。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、MyBase MySQL、...

迁移服务（MMA）

MaxCompute提供的数据迁移服务支持通过MMA（MaxCompute Migration Assist）服务，将Hive数据安全且高效地迁移到MaxCompute。迁移流程使用限制不支持迁移Hive数据至已开启Schema功能的MaxCompute项目。关于Schema介绍详情，请参见 Schema...

新建Paimon数据源

如果需要根据所处环境自动访问对应环境的数据源，请通过${数据源编码}.table 或${数据源编码}.schema.table 的变量格式访问。更多信息，请参见 Dataphin数据源表开发方式。重要目前仅支持 MySQL、Hologres、MaxCompute、Hive、Oracle、...

使用DataWorks同步数据

离线同步支持的数据源类型，具体请参见支持的数据源与读写插件。前提条件已创建工作空间，引擎服务选择为MaxCompute。如何创建，请参见创建工作空间。已创建并配置独享数据集成资源组。如何创建和配置，请参见新增和使用独享数据集成...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中，也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件导入导出数据使用MaxCompute Tunnel，因此要求MaxCompute ...

常见问题

数据同步过程中，可以修改源表中的字段类型，目前仅支持整型数据类型之间、浮点数据类型之间的列类型更改，并且只能将取值范围小的数据类型更改为取值范围大的数据类型，或者将单精度数据类型更改为双精度数据类型。整型数据类型：支持...

发展历程

2015年在GraySort竞赛中，MaxCompute用377秒完成了100 TB的数据排序，打破了此前Apache Spark创造的1406秒的纪录。打破全球Sort Benchmark排序竞赛的四项纪录。产品认证全国首批通过信通院云原生湖仓一体认证。全国首家通过信通院数据...

数据源权限管理

什么是私有模式的数据源？哪些用户能够收回数据源的分享权限？如何检查数据源分享关系的移除、关联情况？分享数据源后，其资源组的连通状态是否会被同步分享？分享数据源后，引用过该数据源的任务关联信息是否会被同步分享？哪些角色可以...

DataWorks模块使用说明

使用流程概览：参考文档：DataWorks数据建模子模块：数据开发（DataStudio）功能说明：数据开发（DataStudio）是一站式大数据开发平台，支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

什么是数据库自治服务DAS

数据库的安全风险大随着数据价值的提升，企业的数据面临着越来越多的内部或者外部的攻击，数据泄漏、数据丢失等问题层出不穷。未授权或者不可预期或者错误的数据库访问和使用。数据泄漏。数据损坏。黑客攻击。软硬件bugs，导致数据异常。...

数据库导出

当您需要进行数据库备份、导出数据库表进行数据分析等操作，您可使用数据管理DMS 的数据导出功能，该功能可通过提交工单的方式导出数据库。前提条件数据库类型如下：MySQL系列：自建MySQL、RDS MySQL、PolarDB MySQL版、AnalyticDB ...

查看同步任务

数据同步目前仅支持at least once语义，在网络服务异常等小概率场景下可能会导致目的端的数据产生重复，需要做去重处理。DataConnector支持系统目标系统时效性是否支持vpc 描述 MaxCompute（ODPS）准实时，通常情况5分钟延迟 No 同步...

创建Hudi数据源

如果需要根据所处环境自动访问对应环境的数据源，请通过${数据源编码}.table 或${数据源编码}.schema.table 的变量格式访问。更多信息，请参见 Dataphin数据源表开发方式。重要目前仅支持 MySQL、Hologres、MaxCompute 数据源。数据源编码...

创建Hudi数据源

如果需要根据所处环境自动访问对应环境的数据源，请通过${数据源编码}.table 或${数据源编码}.schema.table 的变量格式访问。更多信息，请参见 Flink_SQL任务开发方式。重要目前仅支持 MySQL、Hologres、MaxCompute 数据源。数据源编码...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

数据使用诊断

DataWorks的数据使用诊断，为您提供了对当前DataWorks工作空间的数据内容及数据隐私的安全保护能力，以及诊断相关安全问题的最佳实践及解决方案，帮助您快速建立数据使用时和使用后的基本安全体系。进入数据使用诊断登录 DataWorks控制台...

编辑数据源

说明编辑修改数据源内容时，可使用 Ctrl+Z 键，撤销本次操作并返回到上一步的数据框内容。数据映射一般情况下，系统能够自动匹配数据源中的类目和值，完成数据映射。如果数据复杂，则需要手动输入字段来完成数据映射。数据映射成功后，...

独享资源组

独享调度资源组使用场景如果非数据集成任务需要访问VPC环境下的数据库、有白名单访问控制的数据库时，需要使用独享调度资源组，独享调度资源组的使用详情请参见新增和使用独享调度资源组。独享数据集成资源组使用场景如果您需要同步VPC...

快速入门

作为学院派关系型数据库管理系统的鼻祖，它的优点主要集中在对SQL规范的完整实现以及丰富多样的数据类型支持，包括JSON数据、IP数据和几何数据等，而大部分商业数据库都不支持这些数据类型。除了完美支持事务、子查询、多版本控制（MVCC）...

什么是数据传输服务DTS

数据传输服务DTS（Data Transmission Service）是阿里云提供的实时数据流服务，支持关系型数据库（RDBMS）、非关系型的数据库（NoSQL）、数据多维分析（OLAP）等数据源间的数据交互，集数据同步、迁移、订阅、集成、加工于一体，助您构建...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

数据质量教程概述

数据质量是数据分析结论有效性和准确...及时性及时性主要体现在最终ADS层的数据可以及时产出。为保证及时性，您需要确保整条数据加工链路上的每个环节都可以及时产出数据。本教程将利用DataWorks智能监控功能保证数据加工每个环节的及时性。

数据质量教程概述

数据质量是数据分析结论有效性和准确...及时性及时性主要体现在最终ADS层的数据可以及时产出。为保证及时性，您需要确保整条数据加工链路上的每个环节都可以及时产出数据。本教程将利用DataWorks智能监控功能保证数据加工每个环节的及时性。

概述

向量数据库简介在现实世界中，绝大多数的数据都是以非结构化数据的形式存在的，如图片，音频，视频，文本等。这些非结构化数据随着智慧城市、短视频、商品个性化推荐、视觉商品搜索等应用的出现而爆发式增长。为了能够处理这些非结构化...

我是DBA

解决方案数据归档数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建工单...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

大数据主要是做什么的

新品推荐