文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(37)-识别特征(2)-识别字段的分类分级

一、场景 一些表中会有身份证字段,我们需要通过对【身份证】字段设置分类分级,从而设置对应的脱敏规则,以保证在【写开发表】和【数据查询】场景下的数据脱敏保护,那我们在给字段设置分类分级时,可以利用识别特征进行智能识别吗? 二、解决方案及功能 Dataphin支持在创建分类的时候,给分类分级绑定识别特征,后续在对字段进行扫描时,就会根据字段是否符合识别特征,而给该字段指定分类...

Dataphin功能Tips系列(37)-识别特征(2)-识别字段的分类分级
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(36)-识别特征(1)-为资产对象智能推荐标准

一、场景 我们需要建立落标映射规则将标准和资产对象(如字段/指标)进行关联,但是使用标准属性(如标准英文名)和资产对象属性(如字段名称)进行关联对资产建设规范性要求较高,且元数据表达的内容毕竟有限,我们可以根据实际存储的数据来智能推荐相关标准吗? 二、解决方案及功能 Dataphin提供【识别特征】,能够根据资产对象的具体内容为资产对象智能推荐标准 步骤一:创建识...

Dataphin功能Tips系列(36)-识别特征(1)-为资产对象智能推荐标准
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(35)-通过Python脚本连接数据库

一、场景 目前Dataphin已经支持了MySQL、AnalyticDB for PostgreSQL、Oracle、Presto、starrocks、clickhouse这些数据库SQL,可以进行数据库操作,当我们想要跟其他数据库进行交互,但是Dataphin暂时不支持数据库SQL时,我们可以怎么处理呢? 二、解决方案及功能 可以利用Python 中的各种数据库连接库...

Dataphin功能Tips系列(35)-通过Python脚本连接数据库
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(34)-借助词根进行字段命名

一、场景 在数据仓库的开发过程中,每位开发者可能都有自己独特的字段命名方式,这导致了在理解和维护上的不便。为了提高数据仓库的一致性和标准性,管理层希望在创建表时能够遵循一套统一的命名规范。例如,在涉及“金额”的字段命名上,不论是“销售金额”还是“库存金额”,我们都应该确保“金额”这一关键词的一致性,以便于后续的数据处理和理解。为了实现这一目标,我们应该怎么做? 二、解决方案及功能...

Dataphin功能Tips系列(34)-借助词根进行字段命名
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(33)-补数据任务

一、场景 小明负责产出老板每天需要看的销售看板,具体的任务dag图如上,原来的BI看板的上游任务都是天调度,且都是0点运行的任务,现在老板要求该BI看板上的数据每半天更新一次,由于F任务依赖于C任务,并要求C任务必须是天调度,但是又需要完成老板的要求,此时该怎么做呢? 二、解决方案及功...

Dataphin功能Tips系列(33)-补数据任务
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(32)-离线集成之增量追加

一、场景 当上游OA系统的MySQL数据库中某条审批数据的审批状态发生变化时,我们如何将这些变动的数据增量地追加到MaxCompute(或hive)的新分区中,后续查询中又如何查到该审批流的状态流转详情? 二、解决方案及功能 ①首先我们需要捕获到变更的数据,目前Dataphin支持在【输入配置】时通过【输入过滤】来获取到最近变更的数据,如下设置【gmt_modified=...

Dataphin功能Tips系列(32)-离线集成之增量追加
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(31)-自定义资源组

一、场景 某零售企业最近在做促销活动,希望保证某些数据处理任务(订单处理、库存更新)任务能够快速按时完成,如何保证这些高优任务的调度资源不被其他任务占用,能按时执行? 二、解决方案及功能 Dataphin提供了自定义资源组的功能,为高优先级任务分配一个单独的资源组,保证高峰期能够有足够的调度资源,任务及时产出 1、【系统设置-资源设置】可以在默认调度集群资源组中新...

Dataphin功能Tips系列(31)-自定义资源组
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(30)-限流配置

一、场景 某大型电商平台在每天的凌晨时段需要进行大量的数据处理任务,比如订单处理、库存同步、用户行为分析等。此外,平台还需要定期进行历史数据的补数据工作,以确保数据完整性和一致性。在进行补数据时,如果需要补的历史时间周期比较长,这些批处理任务会消耗大量的计算资源,导致批处理任务(如订单处理、库存同步)响应变慢甚至超时失败,这是我们应该怎么保障每天的批处理任务(订单处理、库存同步)的按时产...

Dataphin功能Tips系列(30)-限流配置
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(29)-计算任务版本对比/版本回滚

一、场景 开发人员小张先前编写的一个脚本,在进行了修订之后,发现逻辑出现了偏差,但他已经不记得前一版本的具体内容了。在这种情况下,应该怎样通过版本对比来看出两版脚本之间的差别,并且回滚到之前的版本呢? 二、解决方案及功能 1、在编辑器右边的【历史】侧边栏中会列出历史的所有版本,可以点击版本对比,查看两版脚本的区别,系统会自动用不同的颜色标注出差异点,方便快速定位 ...

Dataphin功能Tips系列(29)-计算任务版本对比/版本回滚
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(28)-跨节点参数

一、场景 某经销零售企业,需要每天定时查询供应商的某个服务,以确认产品目录是否有变更,如果有变更,则全量拉取最新目录数据(数据量比较大,拉取一次成本很高),如果无变更则继续沿用上一次拉取的数据,在dataphin如何实现? 二、解决方案及功能 可以将检测产品目录是否变更的程序写入一个输出节点任务,将产品目录更新状态作为跨节点参数输出,拉取同步产品目录的节点作为输入节点,基...

Dataphin功能Tips系列(28)-跨节点参数

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。