文章 2022-06-21 来自:开发者社区

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

作者:李锦桂   阿里云开源大数据平台开发工程师本文将介绍使用 Python 脚本周期性地向 Kafka Brokers 发送数据,以模拟数据采集,数据发送频率约 1 万条/秒,并使用 DDI Spark Structured Streaming 连接 Kafka Brokers 消费采集到的实时数据,再将其存储到数据湖中。此外,我们还将使用Spark SQL 对采集到的数据做一些简单....

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】
文章 2022-06-10 来自:开发者社区

【Kafka】(一)kafka 简介与设计、实现分析2

讨论四:消费者设计概要消费者与消费组假设这么个场景:我们从Kafka中读取消息,并且进行检查,最后产生结果数据。我们可以创建一个消费者实例去做这件事情,但如果生产者写入消息的速度比消费者读取的速度快怎么办呢?这样随着时间增长,消息堆积越来越严重。对于这种场景,我们需要增加多个消费者来进行水平扩展。Kafka消费者是消费组的一部分,当多个消费者形成一个消费组来消费主题时,每个消费者会收到不同分区的....

【Kafka】(一)kafka 简介与设计、实现分析2
文章 2022-06-10 来自:开发者社区

【Kafka】(一)kafka 简介与设计、实现分析1

一、Kafka 简介1、Kafka 创建背景Kafka 是一个消息系统,原本开发自 LinkedIn,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。活动流数据是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数据包括页面访问量(Page Vi....

【Kafka】(一)kafka 简介与设计、实现分析1
文章 2022-05-13 来自:开发者社区

从源码和日志文件结构中分析 Kafka 重启失败事件

上次的 Kafka 重启失败事件,对为什么重启失败的原因似乎并没有解释清楚,那么我就在这里按照我对 Kafka 的认识,从源码和日志文件结构去尝试寻找原因。从源码中定位到问题的根源首先把导致 Kafka 进程退出的异常栈贴出来:注:以下源码基于 kafka 0.11.0.2 版本。我们直接从 index 文件损坏警告日志的位置开始:kafka.log.Log#loadSegmentFiles注:....

从源码和日志文件结构中分析 Kafka 重启失败事件
文章 2022-05-13 来自:开发者社区

Kafka 删除主题流程分析

之前有个 Kafka 集群的每个节点的挂载磁盘多达 20+ 个,平均每个磁盘约 1T,每个节点的分区日志被平均分配到这些磁盘中,但由于每个分区的数据不一致,而集群节点 log.retention.bytes 这个参数的默认值是 -1,也就是没有任何限制,因此 Kafka 的日志删除日志依赖 log.retention.hours 参数来删除,因此会出现日志未过期,磁盘写满的情况。针对该集群双十一....

Kafka 删除主题流程分析
文章 2022-04-15 来自:开发者社区

部署ELK+Kafka+Filebeat日志收集分析系统

1.环境规划日志系统架构图nginx—>filebeat—>kafka—>logstash—>elasticsearch—>kibana2.部署elasticsearch集群2.1.配置es-1节点1.下载elasticsearch7.6 [root@elk-1 ~]# wget https://mirrors.huaweicloud.com/elasticsear....

部署ELK+Kafka+Filebeat日志收集分析系统
文章 2022-02-17 来自:开发者社区

探究 | kafka-connector 同步 Elasticsearch速度慢根因分析?

链接2、kafka-connector同步kafka到ES场景一:kafka实时数据流直接通过kafka-connector同步到ES。场景二:kafka实时数据流需要中间数据处理后再同步到ES。3、同步慢问题分析?3.1 针对场景一:可能的原因:kafka-connector写入ES速度慢?可能的应对策略核心**:提升ES的写入速度**。分解策略:1)ES副本数设置为0待写入完毕后再改成实际副....

探究 | kafka-connector 同步 Elasticsearch速度慢根因分析?
文章 2022-02-17 来自:开发者社区

Kafka offset commit 分析工具

问题起因 前些天生产上的一套Kafka集群吞吐量异常高,根据Grafana监控发现主要数据TPS来自 __consumer_offsets队列。 其他业务TOPIC总TSP才几百+,而kafka内部Topic __consumer_offsets 达到33.85k,这现象明显不正常啊。 排查思路 首先怀疑是不是监控出问题了,Prometheus Exporter有bug? 还是Grafana .....

Kafka offset commit 分析工具
文章 2022-02-17 来自:开发者社区

探究 | kafka-connector 同步 Elasticsearch速度慢根因分析?

1、kafka同步Elasticsearch的方式 之前博文中也有介绍: 方式一:logstash_input_kafka 方式二:kafka_connector 方式三:spark stream 方式四:java程序读写自己实现 2、kafka-connector同步kafka到ES 场景一:kafka实时数据流直接通过kafka-connector同步到ES。 场景二:kafka实时数...

文章 2022-01-13 来自:开发者社区

Kafka原理分析之基础篇

一、KafkaKafka是一个分布式的消息系统。二、解决问题消息系统通常被应用于异步处理、应用解耦、流量削峰、消息通信等场景。异步处理生产者将消息写入消息队列中,消费者异步拉取消息队列消息,从而提升消息处理能力。应用解耦Kafka作为消息传递的媒介,各子系统只需要做系统责任内的事情。生产者-消费者模式,Kafka就是消息队列。流量削峰正常情况下,上游服务(如报价、营销等)常年流量较大,面对大流量....

Kafka原理分析之基础篇

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

消息队列

消息队列是构建分布式互联网应用的基础设施,通过消息队列实现的松耦合架构设计可以提高系统可用性以及可扩展性,是适用于现代应用的优秀设计方案。

+关注