文章 2024-06-16 来自:开发者社区

实时计算 Flink版产品使用问题之同步到Hudi的数据是否可以被Hive或Spark直接读取

问题一:Flink CDC这个应该在哪里配? Flink CDC这个应该在哪里配?mysql 的超时我已经改成30s了 参考答案: 要么找DBA改一下,要么自己去看有没有参数改,我们是10分钟,有的...

实时计算 Flink版产品使用问题之同步到Hudi的数据是否可以被Hive或Spark直接读取
问答 2024-03-06 来自:开发者社区

Flink CDC同步到hudi 可以直接读取hudi 的数据吗 例如用hive 或者spark?

Flink CDC同步到hudi 可以直接读取hudi 的数据吗 例如用hive 或者spark?

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
384 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
276 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
120 人已学 |
免费
开发者课程背景图
问答 2024-01-09 来自:开发者社区

各位flink cdc 同步进hudi的数据,可以用spark 改吗?

各位大哥flink cdc 同步进hudi的数据,可以用spark 改吗?

文章 2023-09-23 来自:开发者社区

大数据Spark Streaming实时处理Canal同步binlog数据

1. Canal 环境搭建环境参考:java利用canal监听数据库大数据同步工具CanalSpark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。面对这种需求当然我们可以通过JDBC的方式定时查询Mysql,然...

大数据Spark Streaming实时处理Canal同步binlog数据
问答 2023-03-29 来自:开发者社区

有人遇到这个问题没有 spark 写 hudi 同步 hive 这是 BUG吗?

有人遇到这个问题没有 spark 写 hudi 同步 hive 这是 BUG吗?数据也写过去了。

问答 2023-03-29 来自:开发者社区

为什么通过spark 写 hudi 同步 hive 设置的主键是 通过join写过来的

为什么通过spark 写 hudi 同步 hive 设置的主键是 通过join写过来的 然后 数据进入hudi后 通过flink 查询 就提示 找不到主键 此时 spark 查询是正常 如果通过 单独生成主键比如 直接定义一个数值 此时 flink是可以查询。做了测试 hudi主键 必须是 int 或者 bigint 类型 并且不能通过 join的方式传入 否则 spark写入进去后 flin.....

问答 2022-11-21 来自:开发者社区

spark写入hudi表时同步创建hive表映射,结果hive是张空表,查询不到数据

##一、版本 hudi-0.12.0,spark-3.1.2,hadoop-3.3.0 ##二、问题描述 ###目的: 使用spark-shell,创建一些数据,写入hudi表,写入的同时同步给hive,将数据映射为hive表,实现hudi和hive的双写; ###结果: 能成功的创建hive表,但是张空表,查询不出数据;但是使用sparkSQL查询反而正常; 三、spark-shell hud....

问答 2021-12-24 来自:开发者社区

Spark Streaming异步或同步接收数据?

1、Spark Streaming在接收实时数据的时候,采用同步方式接收?还是异步方式接收? 2、同步方式的好处和不足是什么?异步方式的好处和不足是什么?

文章 2020-03-13 来自:开发者社区

Dataworks同步数据到X-pack Spark

简介 本文主要介绍如何通过“Dataworks->数据集成->离线同步”把数据同步到X-pack Spark的hdfs上。同步数据到X-pack的hdfs后,就可以使用X-pack Spark对数据进行分析。本例通过把Dataworks的一张表同步到X-pack Spark的hadfs为例,介绍如何同步数据。 前置条件 X-pack Spark集群已经开通hdfs端口。需要联系X-p....

文章 2019-12-02 来自:开发者社区

12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】

议题: 是时候改变你数仓的增量同步方案了 直播间直达(回看)链接: https://tianchi.aliyun.com/course/live?&liveId=41124 简介: 本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和....

12月5日Spark社区直播【是时候改变你数仓的增量同步方案了】

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注