文章 2017-07-03 来自:开发者社区

2 分钟读懂大数据框架 Hadoop 和 Spark 的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集....

文章 2017-07-03 来自:开发者社区

《Spark与Hadoop大数据分析》一一第3章 深入剖析Apache Spark

第3章 深入剖析Apache Spark Apache Spark 的技术、社区和用户群都在快速增长。2015 年推出了两个新的API:DataFrame API 和 DataSet API。这两个 API 构建在基于 RDD 的核心 API 之上。我们有必要了解 RDD 的更深层概念,包括运行时的架构和它在 Spark 各种资源管理器上的表现。本章分为以下子主题:启动 Spark 守护进程S.....

文章 2017-07-03 来自:开发者社区

《Spark与Hadoop大数据分析》一一2.4 安装 Hadoop 和 Spark 集群

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.4节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4 安装 Hadoop 和 Spark 集群 在安装 Hadoop和Spark之前,让我们来了解一下 Hadoop和Spark的版本。在 Cloudera、Hortonworks和MapR这所有三种流....

文章 2017-07-03 来自:开发者社区

《Spark与Hadoop大数据分析》一一2.3 为何把 Hadoop 和 Spark 结合使用

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.3节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 为何把 Hadoop 和 Spark 结合使用 Apache Spark 与 Hadoop 结合使用时表现更好。为了理解这一点,让我们来看看 Hadoop 和 Spark 的特性。2.3.1 Ha....

文章 2017-07-03 来自:开发者社区

《Spark与Hadoop大数据分析》一一第2章 Apache Hadoop和Apache Spark入门

第2章 Apache Hadoop和Apache Spark入门 在本章,我们将学习 Hadoop 和 Spark 的基本知识,了解 Spark 与 MapReduce 有哪些不同,并开始安装集群和设置分析所需的工具。本章分为以下几个子主题:介绍 Apache Hadoop介绍 Apache Spark讨论为什么要配套使用 Hadoop 和 Spark安装 Hadoop 和 Spark 集群

文章 2017-07-03 来自:开发者社区

《Spark与Hadoop大数据分析》一一1.2 大数据科学以及Hadoop和Spark在其中承担的角色

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第1章,第1.2节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面:从数据中提取其深层次的规律性创建数据产品要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值....

文章 2017-07-03 来自:开发者社区

《Spark与Hadoop大数据分析》一一1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第1章,第1.1节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 传统的数据分析使用关系型数据库管理系统(Relational Database Management System,RDBMS)的数....

文章 2017-05-28 来自:开发者社区

spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解(java、python、r和scala)之Basic包下的SparkTC.scala(图文详解)

spark-1.6.1-bin-hadoop2.6里Basic包下的SparkTC.scala     /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed ...

spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解(java、python、r和scala)之Basic包下的SparkTC.scala(图文详解)
文章 2017-03-02 来自:开发者社区

【Hadoop Summit Tokyo 2016】Apache Spark & Apache Zeppelin的安全状态

本讲义出自Vinay Shukla在Hadoop Summit Tokyo 2016上的演讲,主要介绍了 Spark的安全体系、以及YARN AM上的Spark驱动以及Kerberos身份验证等相关内容,最后还介绍了SparkSQL的相关内容。

文章 2017-02-26 来自:开发者社区

【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库

本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注