文章 2024-06-26 来自:开发者社区

Apache POI与easyExcel:Excel文件导入导出的技术深度分析

一、Apache POI:全面但重量级的解决方案 Apache POI是一个历史悠久且功能全面的开源项目,用于处理Microsoft Office格式文件,包括Excel。它提供了对Excel文件读写操作的全面支持,在处理Excel文件时,POI通过HSSF和XSSF两个子项目分别支持.xls和.xlsx格式。HSSF针对的是旧版的二进制Excel格式,而XSSF则是为新版的基于XML的...

Apache POI与easyExcel:Excel文件导入导出的技术深度分析
文章 2024-06-25 来自:开发者社区

深度分析:Apache Kafka及其在大数据处理中的应用

引言 在现代大数据处理和流式数据处理领域,Apache Kafka已成为不可或缺的基础设施组件。Kafka因其高吞吐量、低延迟和分布式架构,广泛应用于实时数据流处理、日志收集和事件驱动架构中。本文将深入分析Kafka的核心特点,与其他同类型产品进行对比,探讨其优缺点、使用场景、选型指南以及使用注意事项。 一、Apache Kafka简介 A...

深度分析:Apache Kafka及其在大数据处理中的应用
文章 2024-06-25 来自:开发者社区

深度分析:Apache Doris及其在大数据处理中的应用

引言 在大数据处理领域,实时分析和快速查询能力成为企业决策和业务运营的关键需求。Apache Doris作为一款开源的交互式SQL分析数据库,以其高性能、易用性和灵活性,迅速在大数据生态系统中占据了一席之地。本文将深入分析Doris的核心特点,与其他同类型产品(如Apache Druid、ClickHouse、Greenplu...

深度分析:Apache Doris及其在大数据处理中的应用
文章 2024-06-25 来自:开发者社区

深度分析:Apache Flink及其在大数据处理中的应用

引言 在大数据处理领域,实时数据流处理已成为关键技术之一。Apache Flink作为一款开源的流处理框架,因其低延迟、高吞吐量和强大的状态管理能力,受到了广泛关注。本文将深入探讨Flink的核心特点,并与其他同类产品(如Apache Spark、Apache Storm、Apache Kafka Streams)...

深度分析:Apache Flink及其在大数据处理中的应用
文章 2024-04-15 来自:开发者社区

CentOS部署Apache Superset大数据可视化BI分析工具并实现无公网IP远程访问

前言 Superset是一款由中国知名科技公司开源的“现代化的企业级BI(商业智能)Web应用程序”,其通过创建和分享dashboard,为数据分析提供了轻量级的数据查询和可视化方案。Superset在数据处理和可视化方面具有强大的功能,能够满足企业级的数据分析需求,并为用户提供直观、灵活的数据探索和展示方式。通过Superset,用户可以轻松地从海量数据中提取有价值的信息,帮助企业做出...

CentOS部署Apache Superset大数据可视化BI分析工具并实现无公网IP远程访问
文章 2024-03-12 来自:开发者社区

Apache Hudi Savepoint实现分析

1. 介绍 Hudi提供了savepoint机制,即可对instant进行备份,当后续出现提交错误时,便可rollback至指定savepoint,这对于线上系统至为重要,而savepoint由hudi-CLI手动触发,下面分析savepoint的实现机制。 2. 分析 2.1 创建savepoint 创建savepoint的入口为 HoodieWriteClie...

文章 2024-03-12 来自:开发者社区

Apache Hudi:统一批和近实时分析的存储和服务

一篇由三位Hudi PMC在2018年做的关于Hudi的分享,介绍了Hudi产生的背景及设计,现在看来也很有意义。 分为产生背景、动机、设计、使用案例、demo几个模块讲解。 ...

Apache Hudi:统一批和近实时分析的存储和服务
文章 2024-03-12 来自:开发者社区

Apache Hudi Rollback实现分析

1. 介绍 在发现有些commit出错时,可使用Hudi提供的rollback回滚至指定的commit,这样可防止出现错误的结果,并且当一次commit失败时,也会进行rollback操作,保证一次commit的原子性。 2. 分析 rollback(回滚)的入口在 HoodieWriteClient#rollback,其依赖 HoodieWriteClient#roll...

文章 2024-03-12 来自:开发者社区

Apache Hudi索引实现分析(一)之HoodieBloomIndex

1. 介绍 为了加快数据的upsert,Hudi提供了索引机制,现在Hudi内置支持四种索引:HoodieBloomIndex、HoodieGlobalBloomIndex、InMemoryHashIndex和HBaseIndex,下面对Hudi基于BloomFilter索引机制进行分析。 2. 分析 对于所有索引类型的基类HoodieIndex,其包含了如下核心的抽象方...

文章 2024-03-12 来自:开发者社区

Apache Hudi索引实现分析(二)之HoodieGlobalBloomIndex

1. 介绍 前面分析了Hudi默认的索引实现HoodieBloomIndex,其是基于分区记录所在文件,即分区路径+recordKey唯一即可,Hudi还提供了HoodieGlobalBloomIndex的实现,即全局索引实现,只需要recordKey唯一即可,下面分析其实现。 2. 分析 HoodieGlobalBloomIndex是HoodieBloomIndex的子...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像