文章 2025-02-23 来自:开发者社区

从Excel到Hadoop:数据规模的进化之路

从Excel到Hadoop:数据规模的进化之路 在数字时代,数据就像空气,充斥在我们生活的每个角落。今天我们谈"大数据",但回头看看,数据的演变经历了从"小数据"到"大数据"的量变到质变的过程。从Excel到Hadoop,这条路走得并不容易。 小数据时代࿱...

从Excel到Hadoop:数据规模的进化之路
文章 2025-01-14 来自:开发者社区

基于Java的Hadoop文件处理系统:高效分布式数据解析与存储

引子 随着移动互联网时代的到来,大数据时代 也随之而至。无数的信息流与数据流在各种系统和设备中涌动,如何高效地存储与处理这些海量数据,成为了当今技术领域的一大挑战。作为Apache旗下的分布式存储与计算框架,Hadoop 一直在大数据处理领域占有重要地位,凭借其强大的扩展性和可靠性,广泛应用于各类大规模数据处理...

基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
文章 2024-12-05 来自:开发者社区

使用Hadoop MapReduce进行大规模数据爬取

Hadoop MapReduce概述Hadoop MapReduce是一个编程模型,用于处理和生成大数据集。它由Map和Reduce两个主要阶段组成。Map阶段负责处理输入数据,并将结果输出为键值对;Reduce阶段则对Map阶段的输出进行汇总和合并,生成最终结果。为什么选择Hadoop MapReduce进行数据爬取 大规模数据处理能力&...

文章 2024-10-13 来自:开发者社区

Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点

章节内容 上节我们完成了如下的内容: ZK创建节点:永久、顺序、临时 ZK读取节点:列出、查看、更新 ZK删除节点 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在公网上搭建体验一下。 ...

Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
文章 2024-10-13 来自:开发者社区

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

章节内容 上节我们完成了如下的内容: Sqoop 部分导入数据 --query Sqoop 部分导入数据 --where 记录执行过程和执行结果 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝...

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
文章 2024-10-13 来自:开发者社区

Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

章节内容 上一节我们完成了如下的内容: 编写一个 SQL 脚本生成数据 启动我们的依赖服务:HDFS、Hive、YARN Sqoop 将数据 全量 导入 Hive 查看MapReduce状态、查看HDFS结果 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚...

Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
文章 2024-10-13 来自:开发者社区

Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

章节内容 上节我们完成了: Sqoop 介绍 Sqoop 下载配置环境等 Sqoop 环境依赖:Hadoop、Hive、JDBC 等环境补全 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在...

Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
文章 2024-10-13 来自:开发者社区

Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出

章节内容 上一节我们已经完成了: Flume 采集数据 Flume 3个Agent编写 Flume 双写:本地+HDFS 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在公网上搭建体验一下。...

Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
文章 2024-10-13 来自:开发者社区

Hadoop-18 Flume HelloWorld 第一个Flume尝试!编写conf实现Source+Channel+Sink 控制台查看收集到的数据 流式收集

章节内容 上一节我们完成的内容: Flume 简介 Flume 组件的介绍 Flume 架构、核心组件 Flume 下载、安装、配置 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在...

Hadoop-18 Flume HelloWorld 第一个Flume尝试!编写conf实现Source+Channel+Sink 控制台查看收集到的数据 流式收集
文章 2024-10-13 来自:开发者社区

Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)

章节内容 上一节我们完成了: 启动Hive 测试Hive 修改配置 简单测试 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚拟机上搭建过一次,但是没留下笔记,这次趁着前几天薅羊毛的3台机器,赶紧尝试在公网上搭建体验一下。 注意,如果你和我...

Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注