大数据可以用来做什么-大数据可以用来做什么文档介绍内容-阿里云

数据膨胀诊断

消除数据膨胀随着对表不断进行INSERT、DELETE或UPDATE操作，会积累大量Dead Tuple，占据大部分本可以用来存放数据的空间，使得Page中未使用空间减小，导致更多的Page被分配出来。当Page被扫描时，这些大量的Dead Tuple也会被扫描，从而...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

技术发展趋势

生产处理实时化从数据的3V特性（体积，速度和变化）来看，大数据强调数据量，PB级以上，是静态数据；而Fast Data在数据量的基础上，意味着速度和变化，客户可以更加实时化、更加快速地进行数据处理。IDC在新发布的一份白皮书中表示，随着...

通过RAM角色授权模式配置数据源

因此，云账号负责人可以为大数据团队创建自定义角色 BigDataOssRole，并限制可以使用角色的人员为大数据团队的相关人员，实现团队间的权限管控。创建自定义角色。本案例示例创建可信实体为阿里云账号、角色名称为 BigDataOssRole 的自定义...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

ECS实例说明

GPU 使用GPU的异构机型，可以用来运行机器学习等场景。实例类型适用场景 Master主实例适合通用型或内存型实例，数据直接使用阿里云的云盘来保存，确保了数据的高可靠性。Core核心实例小数据量（TB级别以下）或者是使用OSS作为主要的数据...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

数据服务入门

步骤一：创建数据源并配置网络连通性使用数据服务创建API前，您需将数据库或数据仓库添加为DataWorks的数据源，并保障数据服务资源组与您的目标数据源网络连通，以便调用API时DataWorks可成功访问数据源。说明 DataWorks工作空间将集群或...

如何对JSON类型进行高效分析

PolarDB 列存索引（In Memory Column Index，IMCI）功能推出了完备的虚拟列与列式JSON功能等，可以快速处理大数据和多种数据类型（包括结构化数据与半结构化数据等），并提供高效的数据分析、查询与流计算能力，适用于数据分析、数据仓库与...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

Oracle数据源

Oracle数据源为您提供读取和写入Oracle双向通道的功能，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍DataWorks的Oracle数据同步能力支持情况。支持的版本离线读写版本离线读（Oracle Reader）离线写（Oracle ...

RDS SQL Server空间不足问题

数据空间的回收通常有如下几种方式：归档数据删除数据库中不常用的数据（例如早期的历史数据），或者根据需要迁移到其他数据库实例中，或者以其他形式归档保存，通过直接减少数据量来降低已使用数据空间大小。这种方式是控制数据空间增长...

Vertica数据源

Vertica是一款基于列存储的MPP架构的数据库，Vertica数据源为您提供读取和写入Vertica双向通道的功能，本文为您介绍DataWorks的Vertica数据同步的能力支持情况。支持的版本 Vertica Reader通过Vertica数据库驱动访问Vertica，您需要确认...

DB2数据源

DB2数据源作为数据中枢，为您提供读取和写入DB2数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DB2数据同步的能力支持情况。支持的版本 DB2 Reader和DB2 Writer使用的DB2驱动版本为 IBM Data Server Driver ...

导入概述

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

ApsaraDB For OceanBase数据源

ApsaraDB for OceanBase数据源提供读取和写入ApsaraDB for OceanBase数据的双向功能，您可以使用ApsaraDB for OceanBase数据源配置同步任务同步数据。本文为您介绍DataWorks的ApsaraDB For Oceanbase数据同步能力支持情况。支持的版本离线...

SQL Server数据源

SQL Server数据源为您提供读取和写入SQL Server双向通道的功能，本文为您介绍DataWorks的SQL Server数据同步的能力支持情况。支持的版本 SQL Server Reader使用驱动版本是com.microsoft.sqlserver sqljdbc4 4.0，驱动能力具体请参见官网...

PostgreSQL数据源

PostgreSQL数据源为您提供读取和写入PostgreSQL双向通道的功能，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍DataWorks的PostgreSQL数据同步能力支持情况。支持的版本目前仅支持配置PostgreSQL数据源为PostgreSQL...

AnalyticDB for PostgreSQL数据源

AnalyticDB for PostgreSQL数据源提供读取和写入AnalyticDB for PostgreSQL的双向功能，本文为您介绍DataWorks的AnalyticDB for PostgreSQL数据同步的能力支持情况。使用限制离线同步支持读取视图表。支持的版本支持版本最高至7.0（含）...

od飞线层（v3.x版本）

图表样式 od飞线层是3D平面地图（v3.x版本）的子组件，支持独立的样式和数据配置，能够以飞线的形式表现地理位置上两个点之间的OD数据，可以用来展示两地之间的关联信息，如物流、交易等。样式面板搜索配置：单击样式面板右上角的搜索...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

升级数据库大版本

支持升级的数据库大版本云数据库 MongoDB 版控制台可以直接升级数据库大版本，但不同产品架构、不同版本的实例支持升级的版本不同，具体情况如下：产品架构规格类型实例的数据库大版本可升级到的数据库大版本单节点架构通用型云盘版...

基本概念

栅格数据（Raster Data）是将地理空间分割成有规律的网格，每一个网格称为一个单元（像元或像素），并在各单元上赋予相应的属性值来表示实体的一种数据形式。栅格数据通常有两种类型的栅格数据：专题数据和影像数据。专题数据：每个栅格像...

导入概述

如果单表的数据量特别大，或者需要做为全局数据字典来精确去重可以考虑使用 Spark Load。实时数据导入：日志数据和业务数据库的Binlog同步到Kafka后，优先推荐通过 Routine Load 导入StarRocks。如果导入过程中有复杂的多表关联和ETL预处理...

测试数据构建

数据管理DMS的测试数据构建功能拥有强大的算法引擎，支持批量生成各类随机值、地区名、虚拟IP地址等信息，可以大大减轻准备测试数据的负担。本文介绍构建测试数据的方法。前提条件支持的数据库类型：MySQL：RDS MySQL、PolarDB MySQL版、...

简介

数据工作站可以结合大语言模型给业务开发、数据开发、分析师和数据运营同学赋能，提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息，以文档的形式进行交付，并在交付后，希望有可以替您...

Quick BI

不支持添加度量到维度或不支持添加维度到度量处理方法：数据集表定义中，维度或度量有明确定义，如果需要用度量的某列做维度，可以在数据集编辑页面单击右键，单击转换为维度/度量，单击保存，在仪表盘页面刷新，即可获得修改后的表结构...

常见问题

数据湖后端存储使用OSS，用户使用数据湖构建面向大数据分析和机器学习场景可以获得集中式权限管理和统一的元数据视图，更容易对接云上大数据和分析产品。什么情况下我需要使用数据湖构建？在云上有数据分析和机器学习需求，希望构建云上的...

lo-implementation

本文介绍了大对象的特性。大对象的实现将大对象分解成很多...只有大对象的拥有者（或者一个数据库超级用户）可以创建大对象、注释大对象或修改大对象的拥有者。要调整这些行为以兼容以前的发行，请见 lo_compat_privileges 的运行时参数。

实时同步常见问题

若源端数据更新快，数据量多，但同步延迟大，您可以：修改任务配置：您可以在源端数据库最大连接数许可范围内，基于同步库或表个数综合评估调整实时同步并发数。说明并发设置上限为当前资源组支持的最大并发数。不同规格资源组支持的最大...

存储空间分析

您可以在 AnalyticDB for MySQL 空间总览页面查看集群和表的总数据量、冷数据量、热数据量、索引数据量、分区数量、节点的磁盘使用率等指标。查看集群级别的数据量通过空间总览可以查看当前集群的总数据量、热数据量、冷数据量、以及 ...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

常见问题

为什么Redis内存报警与监控的内存使用率不一致如何解决Redis内存使用率突然升高如何搜索大Key 查看Redis集群实例的架构图和监控数据查看Redis集群子实例内存查看当前账号所有实例内存的使用信息使用memtier-benchmark测试Redis集群版...

管理数据集

当数据集是由数据库创建时，您可以做以下操作。单击数据库连接后的设置，修改数据库连接信息。单击数据定时同步后的设置，打开启用开关，设置定时执行的类型，例如：每月第一天早上10点整进行数据同步。单击数据定时同步后的 ...

基于MaxCompute进行大数据BI分析

背景信息 MaxCompute：用于进行大规模数据计算，详情请参见什么是MaxCompute。AnalyticDB MySQL：用于进行海量数据实时高并发在线分析，详情请参见云原生数据仓库AnalyticDB MySQL版。DataWorks：可实现ETL功能，对复杂数据集进行采集、...

概述

仪表盘是数据分析和数据展示的画布，在仪表盘中可以做实时的数据分析，也可以将数据制作为报表进行展示或分享。大屏是针对大屏幕的特殊数据展示画布，支持灵活自定义的样式配置。应用场景安全自助式数据分析基于DMS安全管控底座，确保...

数据安全

该功能基于数据生态服务中的数据迁移，将数据存储至阿里云对象存储服务OSS（Object Storage Service，简称OSS）中，定期全量备份数据，实时增量同步数据，来满足对数据备份和数据恢复的需求，可以最大程度地减少因数据库误操作引起的损失。...

离线同步任务调优

本文为您介绍影响数据同步速度的因素、如何通过调整同步任务的并发配置来实现同步速度最大化、作业的限速选项，以及数据同步过慢的场景。文档概述同步速度受同步任务本身配置、数据库、网络等多方面影响，详情请参见：数据同步速度的影响...

大数据可以用来做什么

新品推荐