问答 2022-06-13 来自:开发者社区

批处理系统中计算过程中可以通过计算的什么来保证数据的一致性(如 Spark 中的 RDD 血缘)?

批处理系统中计算过程中可以通过计算的什么来保证数据的一致性(如 Spark 中的 RDD 血缘)?

文章 2022-06-13 来自:开发者社区

十亿条数据需要每天计算怎么办?Spark快速入门

听说微信搜索《Java鱼仔》会变更强哦!本文收录于github和gitee ,里面有我完整的Java系列文章,学习或面试都可以看看哦(一)概述前段时间公司规划了一个新的项目,我成了这个项目的负责人。在做技术选型时,有一个需求阻碍了前进的步伐。大概有十亿条数据,数据总量在六百G左右,这些海量的数据需要每天根据一定的逻辑计算得到几千万的值。当数据量达到这种程度时,Java应用已经无法支撑了,于是在技....

十亿条数据需要每天计算怎么办?Spark快速入门
文章 2022-04-02 来自:开发者社区

大数据流式计算三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括sp.....

大数据流式计算三种框架:Storm,Spark和Samza
文章 2022-02-17 来自:开发者社区

数据湖实操讲解【 JindoTable 计算加速】第二十讲:Spark 对 OSS 上的 ORC 数据进行查询加速

本期导读 :【JindoTable 计算加速】第二十讲主题:Spark 对 OSS 上的 ORC 数据进行查询加速uid+JindoFS 对 OSS 上数据进行训练加速讲师:健身,阿里巴巴计算平台事业部 EMR 技术专家内容框架:ORC 简介JindoFS 列存加速性能对比演示直播回放链接:(20讲)https://developer.aliyun.com/live/247100一、ORC 简介....

数据湖实操讲解【 JindoTable 计算加速】第二十讲:Spark 对 OSS 上的 ORC 数据进行查询加速
文章 2022-02-17 来自:开发者社区

数据湖实操讲解【 JindoTable 计算加速】第十九讲:Spark 对 OSS 上的 Parquet 数据进行查询加速

本期导读 :【JindoTable 计算加速】第十九讲主题:Spark 对 OSS 上的 Parquet 数据进行查询加速uid+JindoFS 对 OSS 上数据进行训练加速讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家内容框架:JindoFS 计算加速介绍使用 JindoFS 计算加速演示直播回放链接:(19讲)https://developer.aliyun.com/live/247....

数据湖实操讲解【 JindoTable 计算加速】第十九讲:Spark 对 OSS 上的 Parquet 数据进行查询加速
文章 2022-02-15 来自:开发者社区

在内存计算时代,看阿里如何用Spark来进行实践与探索

本文PPT来自阿里云技术专家曹龙(花名:封神)于10月16日在2016年杭州云栖大会上发表的《阿里巴巴Spark实践与探索——内存计算时代》。 随着数据爆发式地增长,如何处理大量的数据成为一项挑战。在此背景下,许多数据处理技术应运而生,这其中典型的技术有数据治理、作业管理、分布式计算和分布式储存等等。同时,许多优秀的分布式引擎也被人们开发出来,比如Hadoop、Spark、Flink和 Tez。....

问答 2022-02-15 来自:开发者社区

Noxmobi系统使用流式计算Spark Streaming的要求有哪些?

Noxmobi系统使用流式计算Spark Streaming的要求有哪些?

问答 2022-02-15 来自:开发者社区

Noxmobi系统使用流式计算Spark Streaming的目的是什么?

Noxmobi系统使用流式计算Spark Streaming的目的是什么?

问答 2022-02-15 来自:开发者社区

Maxcompute产品架构的计算模型数据通道Spark的作用是什么?

Maxcompute产品架构的计算模型数据通道Spark的作用是什么?

问答 2022-02-15 来自:开发者社区

按照“移动数据不如移动计算”的理念,Spark在进行任务调度的时候会做什么?

按照“移动数据不如移动计算”的理念,Spark在进行任务调度的时候会做什么?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注