Kafka实时入湖

数据预处理示例 您可以参考以下示例编写自己的预处理算子。提取Kafka消息体与时间戳字段。通过定义一个map算子实现,表达式参考如下。cast(value as string)as content,from_unixtime(cast(timestamp as bigint),'yyyy-MM-dd')as dt 展开...

Designer支持LLM数据预处理算子及常用模板

新增功能/规格 高质量的数据预处理是LLM成功应用的关键步骤,PAI-Designer提供去重、标准化、敏感信息打码等等常用的高性能数据预处理算子,并基于MaxCompute提供大规模分布式数据计算能力,可大幅提升客户在LLM场景下的数据预处理效率,...

联邦建模概述

联邦数据处理:对联邦表中的数据进行预处理,包括数据预处理和预处理应用。模型训练:使用预处理过的训练集数据训练模型。模型评估:使用预处理过的测试集数据评估模型效果。典型的模型开发业务逻辑如下图所示,其中,离线样本生成的三种...

任务配置

数据预处理 数据预处理节点的构建流程如下:将系统节点列表中的“数据预处理”节点拖拽至画布。配置节点属性。其中,关键参数说明如下:数据预处理算子名称:选择所需算子;可选项为您自定义的或平台自带的数据预处理算子(可在“数据定义>...

数据解析概述

物联网平台的数据服务提供数据解析功能,通过数据解析对设备数据或导入的API数据源的数据进行解析和预处理后,将数据流转到业务服务器,或以表的形式存储于物联网平台。功能说明 您可在物联网平台控制台的 数据服务>数据解析 页面,创建和...

预处理规则管理

预处理规则管理中,您可以统一管理和查看保存的所有预处理规则信息。前提条件 在任务执行完成后,保存了由脚本产生的预处理规则。查看模型列表 登录联邦建模控制台,并在右上角的下拉框中选择需要进入的项目。单击左侧导航栏的 模型管理...

日志数据预处理与投递

本视频介绍如何对日志数据进行预处理与投递。

数据处理与路由规则

添加数据处理规则 通过添加数据处理规则,您可以在设备数据上链之前进行预处理操作,在后续步骤的路由规则配置中可以使用这些处理规则,对数据进行进一步的脱敏和保护处理,保证您的数据安全上链。参数 说明 规则名称 数据处理规则名称,不...

任务管理

执行脚本类型为 预处理规则 或 模型开发 脚本任务后,在其执行结果中可以保存脚本执行后产出的预处理规则或联邦模型。操作:单击 日志,可以查看该任务的执行日志信息,请参见 查看执行日志。单击 结果 可以查看该任务执行完成后的产出结果...

文档修订记录

复合指标 2023.7.13 新增功能 数据集成 实时ETL同步方案根据来源Kafka指定Topic的内容结构对目的Hologres表结构初始化,然后将Kafka指定Topic的存量数据同步至Hologres,同时也持续将增量数据实时同步至Hologres。Kafka实时ETL同步至...

配置同步任务(新控制台)

数据传输服务DTS(Data Transmission Service)提供的数据同步功能简单易用,您只需在新版控制台上进行简单操作,即可完成整个数据同步作业的配置。注意事项 本文仅简单介绍数据同步任务的通用配置流程,不同的同步链路在配置数据同步任务...

跨云账号单向同步云数据库Redis实例

数据库Redis企业版(容量存储型)不支持为源数据库,只能为目标数据库。背景信息 现有两个Redis实例分别属于不同的阿里云账号,由于业务需求,需要将云账号A下的Redis实例中的业务数据信息同步至云账号B下的Redis实例中,详细架构如...

概述

我们提供了一种数据类型 tsvector 来存储预处理后的文档,还提供了一种类型 tsquery 来表示处理过的查询。有很多函数和操作符可以用于这些数据类型,其中最重要的是匹配操作符@。全文搜索可以使用索引来加速。什么是一个文档 一个document...

RDS SQL Server迁移至DataHub

如为增量迁移任务,DTS要求源数据库的数据日志保存24小时以上,如为全量迁移和增量迁移任务,DTS要求源数据库的数据日志至少保留7天以上(您可在全量迁移完成后将数据日志保存时间设置为24小时以上),否则DTS可能因无法获取数据日志而导致...

XML 类型

本文介绍了XML类型的定义及相关语法。xml 数据类型可以被用来存储 XML 数据。它比直接在一个 text 域中存储 XML 数据的优势在于,它会检查输入值的结构是不是良好,并且有支持...但是,所需的预处理支持目前在 PostgreSQL 发布中还不可用。

自建SQL Server迁移至RDS SQL Server

数据传输服务DTS(Data Transmission Service),可以将自建SQL Server迁移至 RDS SQL Server。前提条件 自建SQL Server数据库支持的版本,请参见 迁移方案概览。已创建目标 RDS SQL Server 实例,具体请参见 快速创建RDS SQL Server实例。...

PolarDB PostgreSQL版间的迁移

通过数据传输服务DTS(Data Transmission Service),可以实现 PolarDB PostgreSQL版 集群间的迁移。前提条件 已创建源和目标 PolarDB PostgreSQL版 数据库集群,详情请参见 创建PolarDB PostgreSQL版数据库集群。已将源和目标 PolarDB ...

云数据库MongoDB版(分片集群架构)间的双向同步

数据传输服务DTS(Data Transmission Service)支持 云数据库MongoDB版(分片集群架构)间的双向同步,适用于异地多活(单元化)、数据异地容灾等多种应用场景。本文介绍双向数据同步的配置步骤。前提条件 已创建源和目标 云数据库MongoDB...

云数据库MongoDB版(分片集群架构)间的双向同步

数据传输服务DTS(Data Transmission Service)支持 云数据库MongoDB版(分片集群架构)间的双向同步,适用于异地多活(单元化)、数据异地容灾等多种应用场景。本文介绍双向数据同步的配置步骤。前提条件 已创建源和目标 云数据库MongoDB...

RDS SQL Server同步至DataHub

如为增量同步任务,DTS要求源数据库的数据日志保存24小时以上,如为全量同步和增量同步任务,DTS要求源数据库的数据日志至少保留7天以上(您可在全量同步完成后将数据日志保存时间设置为24小时以上),否则DTS可能因无法获取数据日志而导致...

常见问题

什么数据同步的价格要高于数据迁移的价格?因为数据同步具有更多的高级特性,例如支持在线调整同步对象、支持配置MySQL数据库之间的双向数据同步;且数据同步基于内网传输,可以保证更低的网络延时。账户欠费有什么影响?账户欠费的影响...

RDS MySQL同步至阿里云消息队列Kafka版

目标已存在表的处理模式 检查并报错拦截:检查目标数据库中是否有同名的表。如果目标数据库中没有同名的表,则通过该检查项目;如果目标数据库中有同名的表,则在检查阶段提示错误,数据同步任务不会被启动。说明 如果目标库中同名的表...

PolarDB PostgreSQL版(兼容Oracle)间的迁移

通过数据传输服务DTS(Data Transmission Service),可以实现 PolarDB PostgreSQL版(兼容Oracle)集群间的迁移。背景信息 PolarDB PostgreSQL版(兼容Oracle)作为一款企业级关系型数据库管理系统,具有广泛的应用和强大的社区支持。每个...

SmartData常见问题

可以使用JindoFS缓存模式,通过加载将OSS数据提前写入内存或者SSD缓存,然后训练引擎可以通过JindoFuse支持直接读取。基于MaxCompute数仓上的数据,JindoFS如何帮助机器学习训练?有如下两种方式:MaxCompute数仓作业将数据通过...

跨云账号单向同步云数据库Redis实例

数据库Redis企业版(容量存储型)不支持为源数据库,只能为目标数据库。背景信息 现有两个Redis实例分别属于不同的阿里云账号,由于业务需求,需要将云账号A下的Redis实例中的业务数据信息同步至云账号B下的Redis实例中,详细架构如...

PolarDB-X 1.0迁移至Elasticsearch

本文介绍如何使用数据传输服务DTS(Data Transmission Service)将数据从PolarDB-X 1.0迁移至Elasticsearch。前提条件 已创建源PolarDB-X 1.0实例。具体操作,请参见 创建实例。说明 PolarDB-X 1.0 的存储类型支持为RDS MySQL(包括私有...

常见问题

数据安全中心DSC根据为不同行业预先定义的敏感数据关键字段,扫描MaxCompute、OSS、阿里云数据库服务(RDS、PolarDB-X、PolarDB、OceanBase、表格存储等)和自建数据库中的数据,通过敏感数据规则,判断和打标敏感数据,为数据安全审计、...

PolarDB-X 1.0同步至Elasticsearch

如为增量数据同步任务,DTS要求源数据库的本地Binlog日志保存24小时以上,如为全量数据同步和增量数据同步任务,DTS要求源数据库的本地Binlog日志至少保留7天以上(您可在全量同步完成后将Binlog保存时间设置为24小时以上),否则DTS可能因...

RDS MySQL迁移至Elasticsearch

Elasticsearch与关系型数据库的映射关系如下表所示:Elasticsearch 关系型数据库 索引(index)数据库(Database)文档类型(type)表(Table)文档(document)一行数据(Row)字段(field)一列数据(Column)映射(mapping)数据库的...

PolarDB MySQL版同步至Elasticsearch

本文介绍如何使用数据传输服务DTS(Data Transmission Service),将 PolarDB MySQL版 集群的数据同步至 Elasticsearch 实例。前提条件 已创建存储空间大于源 PolarDB MySQL版 的目标 Elasticsearch 实例。具体操作,请参见 创建阿里云...

RDS MySQL同步至Elasticsearch

目标已存在表的处理模式 检查并报错拦截:检查目标数据库中是否有同名的表。如果目标数据库中没有同名的表,则通过该检查项目;如果目标数据库中有同名的表,则在检查阶段提示错误,数据同步任务不会被启动。说明 如果目标库中同名的表...

RDS MySQL同步至阿里云消息队列Kafka版

目标已存在表的处理模式 检查并报错拦截:检查目标数据库中是否有同名的表。如果目标数据库中没有同名的表,则通过该检查项目;如果目标数据库中有同名的表,则在检查阶段提示错误,数据同步任务不会被启动。说明 如果目标库中同名的表...

自建Oracle同步至阿里云消息队列Kafka版

目标已存在表的处理模式 检查并报错拦截:检查目标数据库中是否有同名的表。如果目标数据库中没有同名的表,则通过该检查项目;如果目标数据库中有同名的表,则在检查阶段提示错误,数据同步任务不会被启动。说明 如果目标库中同名的表...

RDS MySQL迁移至Tablestore

RDS MySQL实例 MySQL自建数据库:有公网IP的自建数据库 ECS上的自建数据库 通过数据库网关接入的自建数据库 通过云企业网CEN接入的自建数据库 通过专线、VPN网关或智能网关接入的自建数据库 说明 本文以RDS MySQL实例为源数据库介绍配置...

PolarDB-X 2.0迁移至Tablestore

数据处理策略 选择数据写入错误时的处理策略,取值为:跳过 阻塞 数据写入模式 选择数据写入的模式,取值为:行覆盖:使用UpdateRowChange会行级别覆盖。行更新:使用PutRowChange会行级别更新。批量写入方式 批量写入调用接口,取值...

PolarDB-X 2.0同步至Tablestore

数据处理策略 选择数据写入错误时的处理策略,取值为:跳过 阻塞 数据写入模式 选择数据写入的模式,取值为:行覆盖:使用UpdateRowChange会行级别覆盖。行更新:使用PutRowChange会行级别更新。批量写入方式 批量写入调用接口,取值...

PolarDB-X 2.0同步至阿里云消息队列Kafka

本文介绍如何使用数据传输服务DTS(Data Transmission Service),将 PolarDB-X 2.0 同步至阿里云消息队列Kafka,实现增量数据的实时同步。前提条件 已创建源 PolarDB-X 2.0 实例,且兼容MySQL 5.7版本。目标Kafka实例的版本请参见 数据库...

分区表常见问题

可以创建一个新的相同定义的临时空表,然后将需要删除数据的分区 EXCHANGE PARTITION,再将临时表删除。为什么分区表查询计划不准确?分区表查询计划不准确主要的原因是统计信息不准确,在8.0.2版本中已经针对这个问题了分区级别统计...

数据预处理

对于文本数据而言,通常文本数据里面会含有很多跟任务无关的噪音,这时应该进行文本的预处理。在NLP自学习平台内置了一些预处理规则,如果您觉得有必要进行预处理可以选择这些规则。我们内置的规则包括:去除 URL 链接;去除 emoji 表情...

配置迁移任务(新控制台)

数据传输服务DTS(Data Transmission Service)提供的数据迁移功能简单易用,您只需在新版控制台上进行简单操作,即可完成整个迁移任务的配置。注意事项 本文仅简单介绍数据迁移任务的通用配置流程,不同迁移链路在配置迁移任务时略有不同...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云数据库 Redis 版 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用