文章 2022-12-29 来自:开发者社区

Spark Streaming实时流处理项目实战笔记——将统计结果写入到MySQL数据库中

思路两种方式,一种可优化(foreachRDD后,直接创建连接Mysql),一种在(foreachRDD后通过foreachPartition,通过分区获取)代码实现import java.sql.DriverManager import Spark.UpdateStateByKey.workds import Spark.WordCount.ssc import org.apache.spar....

Spark Streaming实时流处理项目实战笔记——将统计结果写入到MySQL数据库中
文章 2022-12-29 来自:开发者社区

Spark Streaming实时流处理项目实战笔记——Kafka Consumer Java API编程

1、在控制台创建发送者kafka-console-producer.sh --broker-list hadoop2:9092 --topic zz >hello world2、消费者APIimport java.util.Arrays; import java.util.Properties; import org.apache.kafka.clients.consumer.Consum....

文章 2022-11-30 来自:开发者社区

Spark 原理 | 青训营笔记

Spark 原理 | 青训营笔记这是我参与「第四届青训营 」笔记创作活动的的第4天参考链接:1.第四届字节跳动青训营2.RDD介绍大数据处理引擎Spark介绍Spark生态组件:Spark Core:Spark核心组件,它实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark SQL:用来操作结构化数据的核心组件,通过Spark SQL可以直接查询Hive....

Spark 原理 | 青训营笔记
文章 2022-11-09 来自:开发者社区

【Spark】【RDD】初次学习RDD 笔记 汇总 (2)

键值对RDDmapValuesval rdd = sc.parallelize(List("a","b","c","d")) //通过map创建键值对 var rddp = rdd.map(x=>(x,1)) rddp.collect rddp.keys.collect rddp.values.collect //通过mapValues让所有Value值加一 rddp.mapValues(....

【Spark】【RDD】初次学习RDD 笔记 汇总 (2)
文章 2022-11-09 来自:开发者社区

【Spark】【RDD】初次学习RDD 笔记 汇总 (1)

RDDAuthor:萌狼蓝天【哔哩哔哩】萌狼蓝天【博客】https://mllt.cc【博客园】萌狼蓝天 - 博客园【微信公众号】mllt9920【学习交流QQ群】238948804目录RDD特点创建从内存中创建RDD从外部存储创建RDD1.创建本地文件2.启动spark-shell3.从本地文件系统中读取从HDFS创建RDD1.在HDFS根目录下创建目录(姓名学号)2.上传本地文件到HDFS3....

【Spark】【RDD】初次学习RDD 笔记 汇总 (1)
文章 2022-02-17 来自:开发者社区

Spark 官网阅读笔记

1.spark读取本地文件系统: 则该文件也必须可以在工作节点上的相同路径上访问。所以需要将文件复制到所有work 节点或使用网络安装的共享文件系统。 2.group by key 没有reduceBykey, aggregateBykey高效,(后者是同时分区排序) 3.accumulator 累加器的使用 4.broadcast variables 广播变量的使用 5:Da...

Spark 官网阅读笔记
文章 2019-11-23 来自:开发者社区

Spark快速入门(72集视频+源码+笔记)

Spark快速入门(72集视频+源码+笔记)1、什么是Spark?Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果....

文章 2017-10-24 来自:开发者社区

Spark SQL 笔记

官方参考文档: http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#creating-dataframes DataFrame A DataFrame is a Dataset organized into named columns. It is conceptually equivalent to a ta...

文章 2017-07-14 来自:开发者社区

Spark源码阅读笔记一——part of core

内部accumulator通过心跳报告给drivertask运行时可以累加accumulator,但是不能读取value,value只能在driver获取spark内部用一个weakhashmap保存accumulator,便于gc的清理 CacheManagerspark的类用于负责传递RDD的分区内容给BlockManager,并保证一个节点不会载入一个rdd的两份拷贝,这个通过一个hash....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注