文章 2025-05-07 来自:开发者社区

Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源

一、场景 某客户需要将mysql中的数据通过集成任务同步至hive,但是按照初始资源配置运行时,出现了OOM,我们在配置集成管道时哪些因素会影响到任务的资源消耗呢,同时我们可以按照什么步骤逐步调整所需要的CPU和内存资源,最终平衡好运行时长和资源利用率呢? 二、解决方案及功能 1. 资源消耗的核心影响因素 数据量(核心因素) ...

Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(30)-限流配置

一、场景 某大型电商平台在每天的凌晨时段需要进行大量的数据处理任务,比如订单处理、库存同步、用户行为分析等。此外,平台还需要定期进行历史数据的补数据工作,以确保数据完整性和一致性。在进行补数据时,如果需要补的历史时间周期比较长,这些批处理任务会消耗大量的计算资源,导致批处理任务(如订单处理、库存同步)响应变慢甚至超时失败,这是我们应该怎么保障每天的批处理任务(订单处理、库存同步)的按时产...

Dataphin功能Tips系列(30)-限流配置
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟

一、场景 零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢? 二、解决方案及功能 Dataphin在事实逻辑表的调度配置中设置了【数据...

Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
文章 2024-09-03 来自:开发者社区

Dataphin功能Tips系列(17)-标准码表的应用(1)使用标准码表配置值域范围

场景 数据质量监控的一个常见场景是校验字段值是否在预期范围内,我们可以使用标准码表来配置值域范围,便于后续统一维护和管理 例如“会员性别、员工性别”等标准,分别对应member_sex/employee_gender等字段。这些字段的值域约束统一为“male,female”。我们可以先创建一张“性别”码表,创建标准时给“值域”属性配置已创建的“性别”码表。后续使用系统生...

Dataphin功能Tips系列(17)-标准码表的应用(1)使用标准码表配置值域范围
文章 2024-09-03 来自:开发者社区

Dataphin功能Tips系列(12)-质量规则配置时异常数据归档位置

场景 质量规则配置了异常归档,要怎么找到异常归档的数据? 解决方案及功能 异常数据存储支持默认文件服务器和异常数据归档表 1、默认文件服务器:Dataphin部署时配置的系统文件服务器,后续可以在【校验记录-某条校验记录-下载异常数据】下载本次校验识别到的异常数据。一个规则单次最多归档100条,建议只归档异常字段或小数据量时使用。 ...

Dataphin功能Tips系列(12)-质量规则配置时异常数据归档位置

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。