文章 2023-12-20 来自:开发者社区

【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)

一、相关基本概念文件系统。文件系统是操作系统提供的用于解决“如何在磁盘上组织文件”的一系列方法和数据结构。分布式文件系统。分布式文件系统是指利用多台计算机协同作用解决单台计算机所不能解决的存储问题的文件系统。如单机负载高、数据不安全等问题。HDFS。英文全称为Hadoop Distributed File System,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,它是基于流....

【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
文章 2023-12-20 来自:开发者社区

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)

Flume简介Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume主要由3个重要的组件构成:1)Source:完成对日志数据的收集,分成transtion 和 event 打入到channel之中。2)Cha....

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
文章 2023-12-20 来自:开发者社区

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示(图文解释)

一、Spark SQL简介park SQL是spark的一个模块,主要用于进行结构化数据的SQL查询引擎,开发人员能够通过使用SQL语句,实现对结构化数据的处理,开发人员可以不了解Scala语言和Spark常用API,通过spark SQL,可以使用Spark框架提供的强大的数据分析能力。spark SQL前身为Shark。Shark是Spark上的数据仓库,最初设计成与Hive兼容,但是该项目....

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示(图文解释)
文章 2023-12-20 来自:开发者社区

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~一、RDD的创建Spark可以从Hadoop支持的任何存储源中加载数据去创建RDD,包括本地文件系统和HDFS等文件系统。我们通过Spark中的SparkContext对象调用textFile()方法加载数据创建RDD。1、从文件系统加载数据创建RDD从运行结果反馈的信息可以看出,wordfile是一个String类型的RDD,或者以后可以简单....

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
文章 2023-12-20 来自:开发者社区

【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)

一、Spark概述Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目,其诸多核心理念均源自学术研究论文。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如....

【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解(图文解释)
文章 2023-12-20 来自:开发者社区

【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)

Hive基础SQL语法1:DDL操作DDL是数据定义语言,与关系数据库操作相似,创建数据库CREATE DATABASE|SCHEMA [IF NOT EXISTS] database_name显示数据库SHOW databases;查看数据库详情DESC DATABASE|SCHEMA database_name切换数据库USE database_name修改数据库ALTER (DATABAS....

【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
文章 2023-12-19 来自:开发者社区

【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介(超详细)

一、CPU多核和POISX Thread为了提高任务的计算处理能力,下面分别从硬件和软件层面研究新的计算处理能力在硬件设备上,CPU 技术不断发展,出现了SMP(对称多处理器)和 NUMA(非一致 性内存访问)两种高速处理的 CPU 结构 在软件层面出现了多进程和多线程编程。进程是内存资源管理单元,线程是任务调度单元总的来说,线程所占用的资源更少,运行一个线程所需要的资源包括寄存器,栈,程序计数....

【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介(超详细)
问答 2023-11-16 来自:开发者社区

Flink CDC有信创要求的,能用hadoop flink spark 这些开源组件吗?

Flink CDC有信创要求的,能用hadoop flink spark 这些开源组件吗?

文章 2023-08-22 来自:开发者社区

大数据技术解析:Hadoop、Spark、Flink和数据湖的对比

随着数字化时代的到来,数据已经成为企业和组织的重要资产之一。为了更好地处理、分析和挖掘海量数据,大数据技术逐渐崭露头角。在本文中,我们将深入探讨大数据处理领域中的一些关键技术,包括 Hadoop、Spark、Flink 和数据湖,分析它们的优势、劣势以及适用场景。 Hadoop Hadoop 是一个开源的分布式计算框架,旨在处理大规模数据。它的核心组件包括分布式文件系统 HDFS 和 M...

大数据技术解析:Hadoop、Spark、Flink和数据湖的对比
文章 2023-07-17 来自:开发者社区

Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用

Hadoop是一个开源的分布式计算框架,用于处理大规模数据集的存储和处理。随着大数据的快速发展,机器学习和数据挖掘技术在Hadoop生态系统中的应用也变得越来越重要。在本文中,我们将重点介绍Hadoop生态系统中的两个重要机器学习和数据挖掘技术:Apache Mahout和Apache Spark MLlib,并提供一些代码示...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注