阿里云文档 2024-07-25

如何通过DataWorks数据集成同步异构数据源间的数据

本教程以MySQL中的用户基本信息(ods_user_info_d)表及OSS中的网站访问日志数据(user_log.txt)文件,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例,为您介绍如何通过DataWorks数据集成实现异构数据源间的数据同步,完成数仓数据采集操作。

阿里云文档 2024-06-28

如何配置白名单及类目管理权限

为保证您能正常使用数据地图的元数据采集和类目管理功能,您需要提前配置好白名单,使目标数据源允许DataWorks访问并采集元数据。本文为您介绍如何配置白名单。

阿里云文档 2024-06-25

新建CDH Hive数据抽样采集器

您可以通过DataWorks的数据抽样采集器功能,从CDH Hive表中随机抽取表的部分数据用于数据保护伞的敏感数据识别。如果您在数据保护伞中配置了脱敏规则,那么在数据地图表详情页面进行数据预览时,命中的敏感字段将会被脱敏。本文为您介绍如何新建CDH Hive数据抽样采集器。

问答 2024-05-06 来自:开发者社区

大数据计算MaxCompute实时增量采集MYSQL binlog用的是streamx 的 吗?

大数据计算MaxCompute实时增量采集MYSQL binlog用的是streamx 的 streamx-pump?我看gitee上的描述这个组件还在规划中?

阿里云文档 2024-03-22

如何创建采集器将各数据源的元数据信息汇集至DataWorks

DataWorks数据地图为您提供元数据采集功能,方便您将不同系统中的元数据进行统一汇总管理,您可以在数据地图查看从各数据源汇集而来的元数据信息。本文为您介绍如何创建采集器,将各数据源的元数据信息汇集至DataWorks。

阿里云文档 2024-03-15

如何在调度系统中使用EMR Doctor

创建EMR集群时,已默认安装EMR Doctor环境并开通EMR Doctor任务信息采集用于健康度评估,但部分客户端参数配置可能导致任务采集失效。本文为您介绍如何在客户端追加采集参数以保证EMR Doctor任务采集正常工作。

文章 2024-01-11 来自:开发者社区

大数据数据库增量日志采集之Canal

$stringUtil.substring( $!{XssContent1.description},200)...

大数据数据库增量日志采集之Canal

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

云原生大数据计算服务 MaxCompute您可能感兴趣

产品推荐

阿里巴巴大数据计算

阿里大数据官方技术圈

+关注