文章 2022-02-16 来自:开发者社区

大数据计算架构Hadoop、Spark和Storm 三者技术比较

短短几年时间,大数据这个词便已家喻户晓。但在大数据这个名词被命名之前,人类对数据的搜集与分析已有着悠久的历史。从人工统计分析到电脑/大型机再到今天的分布式计算平台,数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于Hadoop,Spark和Storm这三种,而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头,也让网上逐渐开始有一种声音说Hadoop的....

文章 2022-02-16 来自:开发者社区

大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从....

文章 2022-02-16 来自:开发者社区

7种最常见的Hadoop和Spark项目

有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,以下所列的是最常见的七种项目。 项目一:数据整合 称之为“企业级数据中心”或“数据湖”,....

文章 2022-02-16 来自:开发者社区

Dr. Elephant:Hadoop和Spark的优化“神器”

美国加州软件公司Pepperdata的应用程序分析软件建立在Dr. Elephant(Dr. Elephant 是Hadoop和Spark的性能监视和调优工具)开源项目上。主要目的是让更多的Hadoop和Spark应用程序投入生产。 Pepperdata的应用程序分析器作为早期访问版本,基于去年推出的Apache开源项目Dr. Elephant。Dr. Elephant项目的贡献者包括Airbn....

文章 2022-02-16 来自:开发者社区

《Spark与Hadoop大数据分析》一一3.6 Spark 资源管理器:Standalone、YARN和Mesos

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.6节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.6 Spark 资源管理器:Standalone、YARN和Mesos 在本章其他部分(在 PySpark shell 和应用程序中),我们已经在 Spark 的 Standalone 资源管理器中执....

文章 2022-02-16 来自:开发者社区

《Spark与Hadoop大数据分析》一一3.4 Spark 应用程序

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.4节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.4 Spark 应用程序 让我们来了解 Spark Shell 和 Spark 应用程序之间的区别,以及如何创建和提交它们。3.4.1 Spark Shell 和 Spark 应用程序Spark 让你....

文章 2022-02-15 来自:开发者社区

如何选择满足需求的SQL on Hadoop/Spark系统

在批处理时代,Hive一枝独秀;在实时交互式查询时代,呈现出的是百花齐放的局面。Hive onTez, Hive on Spark, Spark SQL, Impala等等,目前看也没有谁干掉谁的趋势。引用今年图灵奖得主Michael Stonebraker的话说,现在的数据库领域已经不是”one size fit all”的时代了。那么面对这么多系统,我们改如何选择呢?这里谈谈这些系统的区别和....

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块

本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Arun Murthy与团队的从各种流使用中学习到的最佳实践和经验,演讲的内容非常简单易懂并且非常有趣,在演讲的最后还介绍了像搭乐高一样搭建Storm与Spark Streaming Pipelines块的相应工具。

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】基于Apache Spark的数据科学

本讲义出自Robert Hryniewicz在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据科学以及机器学习的相关基本概念以及机器学习的例子,并分享了机器学习的方法,还分享了K-means的聚类方法、决策树以及随机森林等相关知识。

文章 2022-02-15 来自:开发者社区

【Hadoop Summit Tokyo 2016】当Spark邂逅智能电表

本讲义出自Michael Plazzer在Hadoop Summit Tokyo 2016上的演讲,主要分享了Spark在电力行业中的智能电表上的应用,并分享了通过大数据分析能源情况的研究以及能源时间数据序列的相关的内容。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注