文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(47)-支持通过Spark本地客户端提交Spark Batch任务

一、场景 原来的Spark Jar任务和PySpark任务提交,需要借助外部执行机器作为“跳板机”,这会产生以下问题: 单点故障风险,缺乏高可用性: 跳板机作为单一的连接点,一旦发生故障(如硬件故障、网络中断等),将导致整个Spark任务提交流程中断,无法实现高可用性。 资源分配集中,无法实现均衡负载: ...

Dataphin功能Tips系列(47)-支持通过Spark本地客户端提交Spark Batch任务
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(46)-实时研发任务在session调试和运行 时资源分配上的区别

一、场景 实时研发的开发同学小A 经常需要调试和开发实时任务,他提出了一个疑问:目前Dataphin上的实时研发任务 在session调试和运行时 分别占用的是哪个集群的资源,他们的区别是什么? 二、解决方案及功能 session调试和运行分别占用哪个集群的资源: 【调试】使用session集群,占用的是Dataphin调度集群的资源; ...

文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(45)-session集群调试优化

一、场景 开发同学小A有大量的实时研发作业需要进行调试,最近发现调试很慢,可以怎么解决呢? 二、解决方案及功能 session 集群中,多个作业共享 JobManager(JM) 和 TaskManager(TM) 资源。当多个作业同时提交运行时,可能会出现资源竞争的情况。 增加session集群整体的资源 调大session集群对应...

Dataphin功能Tips系列(45)-session集群调试优化
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(44)-实时任务调优

一、场景 开发同学小A有大量的实时研发作业需要运行,但是发现时常会有作业等待的情况,该如何处理? 二、解决方案及功能 增加集群资源队列的资源 如果Flink集群是开源Flink或者是Flink vvp,需要通过集群配置文件或者是到控制台(Flink vvp支持)去调整;如果是flink on k8s的部署方式,则需要到Dataphin【管理中...

Dataphin功能Tips系列(44)-实时任务调优
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(43)-实时任务调试-session集群

一、场景 在实际运行实时研发任务前,往往需要进行调试,目前本地调试支持自动采样的数据源有限,不支持自动采样的数据源需要手动上传数据,流程繁琐,调试效率很慢,并且这并非真正的流式读取,那有更好的办法进行调试吗? 二、解决方案及功能 Dataphin 支持 session 集群用于调试,支持流式数据的调试(即一边从来源表中读取数据,一边进行计算,与真实线上运行任务的结果一致,...

Dataphin功能Tips系列(43)-实时任务调试-session集群
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(42)-实时研发-基于Flink on k8s

一、场景 公司A购买了Dataphin的独立部署版本,但是想要体验实时研发的功能,可以怎么做? 二、解决方案及功能 首先,实时研发基于 Apache Flink,因此需要一个独立的 Flink 集群。Dataphin 提供了基于 Kubernetes 的 Flink 部署模式,允许利用调度集群运行flink任务。 需要注意以下几点: 目前仅独立...

Dataphin功能Tips系列(42)-实时研发-基于Flink on k8s
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(41)-Hadoop集群管理

一、场景 小A在过往创建计算源的时候,遇到了以下两个问题: 1、每次都需要上传重复的集群文件和填写相同的信息,只有少部分信息需要单独填写比如说指定hive库,所需要填写的信息也很多,每次都需要较长的时间; 2、当Hadoop集群的信息变更,例如:Hive数据库实例的IP地址切换、krb5文件更新等,都需要逐一修改所有的计算源; Dataphin有什么办法可以减少创...

Dataphin功能Tips系列(41)-Hadoop集群管理
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(40)-发布顺序中的必选依赖、可选依赖

一、场景 小明有一个A任务依赖于另一个同事开发的B任务,小明发布A任务的时候不知道B任务有没有发布,每次都需要手动确认上游任务是否已发布,这样依赖层级很多的话就会很麻烦,可以优化一下吗? 之前的任务发布时是单个任务发布,只会在发布的那一刻校验依赖关系,如果依赖的上游任务没有发布就会报错,那么可以在发布之前就根据任务的依赖关系并形成正确的发布顺序,简化发布流程吗? 二、解决...

Dataphin功能Tips系列(40)-发布顺序中的必选依赖、可选依赖
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(39)-API的非必填参数(2)-未传参时指定默认值

一、场景 我们在使用API时请求参数经常会有非必填参数,此时该参数应该是没有传参的,如果我们希望当这个参数没有传参时,给该参数赋值'null'字符串,该如何做? 比如说我们希望从一个订单表中查到某一个客户的订单,如果订单id字段(crt_ord_id)有传参,那就查看这个客户的这个订单,如果订单id字段(crt_ord_id)没有传参,就找到这个客户所有没有订单id的订单(有问题...

Dataphin功能Tips系列(39)-API的非必填参数(2)-未传参时指定默认值
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(38)-API的非必填参数(1)

一、场景 我们希望从一个订单表中查到某一个客户的订单,有时能获取到订单ID(crt_ord_id)和用户ID(buyer_id),如果没有订单ID,就查某个用户的所有订单,在Dataphin数据服务模块如何实现? 这里我们假设直接从上游数据库中进行查询(在数据服务模块以【直连数据源-SQL模块】为例),并以MySQL为例 二、解决方案及功能 ①可以利用【直连数据源...

Dataphin功能Tips系列(38)-API的非必填参数(1)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。