阿里云文档 2025-03-21

用户画像分析案例同步数据-基于新版数据开发和Spark计算资源

本文将介绍如何创建HttpFile和MySQL数据源以访问用户信息和网站日志数据,配置数据同步链路将这些数据同步到在环境准备阶段创建的OSS存储中,并通过创建Spark外表解析OSS中存储的数据。通过查询验证数据同步结果,确认是否完成整个数据同步操作。

阿里云文档 2025-03-14

对产出的用户画像数据进行数据质量监控

本文将以ods_user_info_d_spark表为例,演示如何通过数据质量模块的强/弱规则配置(表行数非0强校验和业务主键唯一性弱校验),在每日调度任务中实时拦截源数据缺失或主键重复异常,从而保障用户信息同步作业的下游计算可靠性。您可以参考以下内容,在数据质量模块中完成对表数据质量的监控操作。

阿里云文档 2025-03-14

对产出的用户画像数据进行数据质量监控

本文将以ods_user_info_d_spark表为例,演示如何通过数据质量模块的强/弱规则配置(表行数非0强校验和业务主键唯一性弱校验),在每日调度任务中实时拦截源数据缺失或主键重复异常,从而保障用户信息同步作业的下游计算可靠性。您可以参考以下内容,在数据质量模块中完成对表数据质量的监控操作。

阿里云文档 2025-03-14

用户画像分析案例加工数据-基于新版数据开发和Spark计算资源

本文为您介绍如何用Spark SQL创建外部用户信息表ods_user_info_d_spark以及日志信息表ods_raw_log_d_spark访问存储在私有OSS中的用户与日志数据,通过DataWorks的EMR Spark SQL节点进行加工得到目标用户画像数据,阅读本文后,您可以了解如何通过Spark SQL来计算和分析已同步的数据,完成数仓简单数据加工场景。

阿里云文档 2025-03-14

对产出的用户画像数据进行数据质量监控

本文将以ods_user_info_d_starrocks表为例,演示如何通过数据质量模块的强/弱规则配置(表行数非0强校验和业务主键唯一性弱校验),在每日调度任务中实时拦截源数据缺失或主键重复异常,从而保障用户信息同步作业的下游计算可靠性。您可以参考以下内容,在数据质量模块中完成对表数据质量的监控操作。

问答 2023-02-10 来自:开发者社区

全链路数据治理-云起实验室 dataworks版本更新导致无法新增数据源

昨天我做的时候版本没有问题,今天一来就发现了无法新增数据源,根据原本的教程应该为在新建OSS数据中输入对应内容后选择独享数据集成资源组中的更多选项,但对应内容没有出现,导致后续实验无法进行。在切换为新建MySQL数据源后,发现上方的数据源缺少了连接串模式。想问下这个情况是属于特例,还是版本更新后没有对后续的实验内容进行修改。 新建OSS数据源对应教程 实际情况 新建RDS数据源对应教程 ...

问答 2022-09-30 来自:开发者社区

根据数据治理的需求五大层次,DataWorks有哪些对应的产品模块?

根据数据治理的需求五大层次,DataWorks有哪些对应的产品模块?

文章 2021-07-28 来自:开发者社区

DataWorks数据治理介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》

作者:DataWorks产品经理 唐晨一、数据治理的概念、需求层次和目标(一)对于数据治理概念的一些基本理解当我们在谈论数据治理时,经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时,参考的主要也是数据管理领域内的三大理论依据:第一个是数据管理协会知识体系,也就是大家熟知的DAMA、DMBOK2;第二个是DCMM数据管理能力成熟度评估;第三个是信通院的数据资产管理实践白皮....

DataWorks数据治理介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》
文章 2021-07-27 来自:开发者社区

数据开发(DataStudio)降本提效的核心利器 | 《一站式大数据开发治理DataWorks使用宝典》

作者:DataWorks产品经理 刘天鸢一、数据开发的意义和价值下图是DataWorks的开发界面,DataStudio的中央是一个工作流,里面有同步任务和SQL任务,可以基于企业不同需求拖入其他节点,比如EMR节点或其他类型引擎节点等。开发人员在面对异构数据源或异构计算引擎时,能够非常便捷的以拖拽的形式来进行数据开发,构建离线或实时调度任务的工作流。2009年之前,阿里集团使用的是Oracle....

数据开发(DataStudio)降本提效的核心利器 | 《一站式大数据开发治理DataWorks使用宝典》

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

大数据开发治理平台 DataWorks数据相关内容

大数据开发治理平台 DataWorks更多数据相关

产品推荐

大数据开发治理DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

+关注