大数据工程师技术栈-大数据工程师技术栈文档介绍内容-阿里云

数据扫描和识别

支持扫描的数据源类型如下：结构化数据：RDS、PolarDB、PolarDB-X、MongoDB、OceanBase、自建数据库非结构化数据：OSS 大数据：TableStore、MaxCompute、ADB-MYSQL、ADB-PG 数据源授权完成后需要多长时间完成扫描？DSC 完成数据源授权后，...

我是普通用户

数据方案数据变更对数据进行变更，以满足上线数据初始化、历史数据清理、问题修复、测试等诉求。数据导入通过数据导入功能可以批量将数据导入至数据库。数据导出进行大量数据分析或提取相关数据时可以使用数据导出功能。数据追踪由于...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

DataWorks On EMR使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效...

联系我们

售后技术答疑如果您在使用DataV产品时有任何疑惑或建议，可以使用钉钉搜索25600023260，加入DataV数据可视化交流群，我们会有专业的技术支持工程师在线答疑。技术交流数据可视化DataV是阿里云一款数据可视化应用搭建工具，旨在让更多的...

联系我们

售后技术答疑如果您在使用DataV产品时有任何疑惑或建议，可以使用钉钉搜索25600023260，加入DataV数据可视化交流群，我们会有专业的技术支持工程师在线答疑。技术交流数据可视化DataV是阿里云一款数据可视化应用搭建工具，旨在让更多的...

查看敏感数据识别结果

仅支持在结构化数据、半结构化数据、非结构化数据或 大数据 分类下分别选择一个或多个数据类型，不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型，数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板：在 ...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

限制说明

数据大小云数据库 Memcache 版支持的单条缓存数据的 Key 最大不超过 1 KB，Value 最大不超过 1 MB，过大的数据不适合存储。事务支持云数据库 Memcache 版不支持事务，有事务性要求的数据不适合写入，而应该直接写入数据库。使用场景当...

自定义 SOFABoot 技术栈

技术栈背景信息关于什么是技术栈、技术栈目录结构、如何制作技术栈包以及其它更多技术栈详情，请参考 技术栈使用指南。自定义技术栈 需求背景 SOFAStack 默认提供 SOFABoot 技术栈。如果面临比较紧急的业务需求，或默认技术栈无法满足...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

创建Teradata数据源

通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出...

Dataphin支持的数据源

背景信息 Dataphin支持对接的数据源包括大数据存储型数据源、文件数据源、消息队列数据源、关系型数据源和NoSQL数据源，各模块支持对接的数据源类型说明如下：如果您需要在Dataphin中连接某数据源，则需要先在数据源管理中创建该数据源。...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

Quick BI连接MaxCompute

MaxCompute支持您将MaxCompute项目数据接入阿里云Quick BI，对海量数据进行实时在线分析服务，同时支持拖拽式操作和丰富的可视化效果，帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。本文为您介绍如何使用Quick BI连接...

我是安全管理员

解决方案数据归档概述数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建...

数据分析概述

DataWorks提供的数据分析平台，可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中，您不仅可以在线洞察数据，还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势与本地数据分析相比...

Doris概述

统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。数据湖联邦查询：通过外表的方式联邦分析位于Hive、...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据源管理概述

功能介绍多数据源类型接入：Dataphin内置丰富的数据源类型，支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息，请参见 Dataphin支持的数据源。自定义数据源类型：在内置的...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

Transaction Table2.0概述

随着当前数据处理业务场景日趋复杂，很多业务场景并不要求延时秒级更新可见或者行级更新，更多的需求是分钟级或者小时级的近实时数据处理叠加海量数据批处理场景，MaxCompute支持基于Transaction Table2.0实现近实时的增全量一体的数据存储...

OSS数据安全防护最佳实践

DSC 在您完成数据源识别授权后，从您存储在OSS的海量数据中快速发现和定位敏感数据，对敏感数据分类分级并统一展示，同时追踪敏感数据的使用情况，并根据预先定义的安全策略，对数据进行保护和审计，以便您随时了解OSS数据资产的安全状态。...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

我是DBA

解决方案数据归档数据归档功能支持定时将大表的数据归档至其他数据库，同时支持源表数据删除、表空间整理回收等。一键建仓一键创建实时同步的数据仓库，数据在秒级的延迟下，同步至AnalyticDB MySQL版数据库中。数据库迁移通过创建工单...

ETL工作流快速体验

零售电商GMV分析 DataWorks MaxCompute 数据集成数据开发基于DataWorks提供的智能数据建模产品，使用该产品内置零售电子商务数仓模型，为您介绍DataWorks在数仓搭建过程中的技术栈及流程实现。案例相关文档：零售电商数据建模。视频...

我是管理员

数据归档数据归档功能定时将大表的数据归档至其他数据库，支持源表数据删除、表空间整理回收等功能。数据库迁移通过创建工单实现数据库迁移、校验和清理的闭环操作。运维管理通知管理可根据您的业务需求，订阅不同功能模块的消息事件，...

DataWorks On CDP/CDH使用说明

一、数据集成 DataWorks的数据集成模块为您提供读取和写入数据至CDP/CDH Hive、CDP/CDH HBase的能力，您需要将Hive或HBase组件创建为 DataWorks的 Hive或HBase数据源，实现将其他数据源的数据同步至Hive或HBase数据源，或将Hive或HBase数据...

MapReduce

自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐：用户单击（CTR）和购买行为（CVR）预测。MapReduce流程说明 MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先...

共享内存通信（SMC）使用说明

Alibaba Cloud Linux 3提供的共享内存通信SMC（Shared Memory Communication）是一种兼容socket层、使用共享内存技术实现的高性能内核网络协议栈。根据共享内存技术的不同，SMC又可以细分为基于Internal Shared Memory（ISM）技术的SMC ...

共享内存通信（SMC）使用说明

Alibaba Cloud Linux 3提供的共享内存通信SMC（Shared Memory Communication）是一种兼容socket层、使用共享内存技术实现的高性能内核网络协议栈。根据共享内存技术的不同，SMC又可以细分为基于Internal Shared Memory（ISM）技术的SMC ...

识别任务说明

文件或表扫描限制为了避免数据源中文件或表过大影响整体扫描进度，数据安全中心对可以扫描的文件大小或表的字段大小做了限制，请您在进行敏感数据扫描前了解以下规则：结构化数据（RDS MySQL、RDS PostgreSQL、PolarDB等）、大数据...

如何处理Tair集群数据倾斜

在 Tair 集群中，若个别数据分片节点（Data Node）的内存使用率或CPU使用率、带宽使用率、延时等性能指标远远高于其他数据分片，该 Tair 集群可能已产生数据倾斜。数据倾斜严重时，会导致实例在整体内存使用率不高的情况下，发生内存逐出...

如何处理Redis集群数据倾斜

在 Redis 集群中，若个别数据分片节点（Data Node）的内存使用率或CPU使用率、带宽使用率、延时等性能指标远远高于其他数据分片，该 Redis 集群可能已产生数据倾斜。数据倾斜严重时，会导致实例在整体内存使用率不高的情况下，发生内存逐出...

数据质量概述

数据质量帮助您第一时间感知源端数据的变更与ETL（Extract Transformation Load）中产生的脏数据，自动拦截问题任务，有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据，影响正常使用和业务决策。同时也能显著降低问题处理的...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

大数据工程师技术栈

新品推荐