【大数据】Apache Spark入门到实战 4

创建 DataFrame在 Scala 中,可以通过以下几种方式创建 DataFrame:从现有的 RDD 转换而来。例如:import org.apache.spark.sql.SparkSession val spark = SparkSession.builder.appName("Creat...

【大数据】Apache Spark入门到实战 3

CheckPointCheckPoint可以将RDD从其依赖关系中抽出来,保存到可靠的存储系统(例如HDFS,S3等), 即它可以将数据和元数据保存到检查指向目录中。因此,在程序发生崩溃的时候,Spark可以恢复此数据,并从停止的任何地方开始。CheckPoint分为两类:高可用Che...

阿里云大数据工程师ACA认证(2023版)

21 课时 |
807 人已学 |
免费

基于MaxCompute的热门话题分析

8 课时 |
329 人已学 |
免费

独家揭秘当下大数据体系

4 课时 |
331 人已学 |
免费
开发者课程背景图

【大数据】Apache Spark入门到实战 2

RDDRDD的概念在Spark中十分重要,上面只是简单的介绍了一下,下面详细的对RDD展开介绍。RDD是“Resilient Distributed Dataset”的缩写,从全称就可以了解到RDD的一些典型特性:Resilient(弹性):RDD之间会形成有向无环图(DAGÿ...

【大数据】Apache Spark入门到实战 1

【大数据】Apache Spark入门到实战 1

之前说到了之后工作中会接触到Spark离线任务相关的内容,也预先学习了Scala,所以这篇文章它来了。本篇文章会介绍Spark的相关概念以及原理,帮助初学者快速入门Spark。Spark是什么学习一个东西之前总要知道这个东西是什么。Spark 是一个开源的大数据处理引擎,它提供了一整套开发 API,...

[帮助文档] JindoFS实战的详细文档和演示视频

通过JindoFS,您可以完成数据迁移、OSS访问加速、缓存加速、AI训练加速和JindoTable计算加速。本文为您介绍JindoFS实战的详细文档和演示视频。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里巴巴大数据计算
阿里巴巴大数据计算
阿里大数据官方技术圈
347750+人已加入
加入
相关电子书
更多
大数据&AI实战派 第2期
大数据&AI实战派 第1期
阿里云 JindoFS+OSS 数据上云实战
立即下载 立即下载 立即下载

云原生大数据计算服务 MaxCompute实战相关内容