文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——3.6 Spark 资源管理器:Standalone、YARN和Mesos

3.6 Spark 资源管理器:Standalone、YARN和Mesos 在本章其他部分(在 PySpark shell 和应用程序中),我们已经在 Spark 的 Standalone 资源管理器中执行过 Spark 应用程序。让我们尝试理解这些集群资源管理器相互之间有什么不同,以及它们该在什么情况下使用。 3.6.1 本地和集群模式 在继续讲解集群资源管理器之前,让我们来了解集群模式与本地....

文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——2.4 安装 Hadoop 和 Spark 集群

2.4 安装 Hadoop 和 Spark 集群 在安装 Hadoop和Spark之前,让我们来了解一下 Hadoop和Spark的版本。在 Cloudera、Hortonworks和MapR这所有三种流行的Hadoop发行版中,Spark都是作为服务提供的。在本书编写的时候,最新的Hadoop和Spark版本分别是2.7.2和2.0。但是,Hadoop发行版里可能是一个较低版本的Spark,这....

文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——2.3 为何把 Hadoop 和 Spark 结合使用

2.3 为何把 Hadoop 和 Spark 结合使用 Apache Spark 与 Hadoop 结合使用时表现更好。为了理解这一点,让我们来看看 Hadoop 和 Spark 的特性。 2.3.1 Hadoop 的特性 2.3.2 Spark 的特性 当这两个框架结合起来的时候,我们就得到了具有内存级性能的企业级应用的威力,如图2-11 所示。 关于 Spark 的常见问题 以下是从业者...

文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色

1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 传统的数据分析使用关系型数据库管理系统(Relational Database Management System,RDBMS)的数据库来创建数据仓库和数据集市,以便使用商业智能工具进行分析。RDBMS 数据库采用的是写时模式(Schema-on-Write)的方法,而这种方法有许多缺点。 传统数据仓库的设计思想是用于提取、....

文章 2017-08-17 来自:开发者社区

大数据分析平台Hadoop与Spark之争

ZD至顶网软件频道消息 原创文章(文/邓晓蕾): 有人把大数据称为信息资产、有人称为金矿、甚至社会财富。而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。Gartne认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多...

文章 2017-08-02 来自:开发者社区

WOT2016黄慧攀:海量日志处理可以不用Hadoop或Spark

如今,随着云计算、移动互联网、物联网、大数据等技术的快速发展,企业逐渐认识到,数据的价值,对数据的挖掘分析能力已经成为企业的核心竞争力。对于互联网企业,最有价值的数据都蕴藏在网站的日志中。从日志中,我们可以知道网站的访问量,应用的使用量、用户的相关数据,使用偏好等关键信息,从而更好的改善服务质量,更好的满足用户的需求。 但是随着企业的用户规模不断扩大,以及数据量的爆炸式增长,日志的管理和分析变得....

文章 2017-08-01 来自:开发者社区

2分钟读懂Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成.....

文章 2017-07-05 来自:开发者社区

企业拥抱大数据,Hadoop 和Spark渐受欢迎

虽然国内大数据相较国外起步较晚,但增长态势却一路上扬,完美诠释了典型的“中国速度”,不仅是企业和政府用户对于大数据的认知在提升,而且在搭建平台和提供数据服务方面,企业用户也开始了更为深入的探索。 来自中国信通院的数据显示:2016年中国大数据市场规模将达到16.8亿元人民币,增速为45%,预计未来3年(2017~2020年),增速将稳步保持在30%以上。 市场风生水起,离不开政府层面的扶持。国家....

文章 2017-07-03 来自:开发者社区

《Spark与Hadoop大数据分析》一一3.3 Spark 程序的生命周期

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.3节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.3 Spark 程序的生命周期 以下步骤讲解了配备 Standalone 资源管理器的 Spark 应用程序的生命周期,图3-8 显示了Spark程序的调度过程: (1)用户使用 spark-subm....

文章 2017-07-03 来自:开发者社区

《Spark与Hadoop大数据分析》一一3.2 学习Spark的核心概念

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.2节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.2 学习Spark的核心概念 在本节,我们要了解 Spark 的核心概念。Spark 提供的主要抽象是弹性分布式数据集(Resilient Distributed Dataset,RDD)。因此,我们....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注