文章 2023-07-17 来自:开发者社区

Hadoop生态系统中的数据存储技术:HDFS的原理与应用

Hadoop生态系统是一个开源的大数据处理框架,其中最核心的组件之一就是Hadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)。HDFS是一个可靠、高容错性的分布式文件系统,被广泛应用于大规模数据存储和处理场景。 HDFS的原理和应用可以从以下几个方面来介绍:文件...

文章 2022-02-17 来自:开发者社区

基于Hadoop生态系统的一种高性能数据存储格式CarbonData(性能篇)

一、评测环境 1)网络拓扑图 2)配置参数 Ø 服务器配置 二、性能对比目前主流hadoop的文件存储格式有行存储的CSV格式,列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。 1)测试数据 创建沈阳社保的数据仓库,导入、集成1年的测试数据,如下表: 生成CarbonData格式文件...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注