文章 2018-03-06 来自:开发者社区

hadoop/spark节点动态调整

转自:hadoop2.7 动态新增节点和删除节点 转自:spark集群动态增加worker节点 hadoop安装过程中包括yarn的节点,hadoop有多个节点,spark也是多个节点,也区分master和slave

文章 2017-12-19 来自:开发者社区

hadoop+spark集群搭建

1.选取三台服务器(CentOS系统64位)   114.55.246.88 主节点   114.55.246.77 从节点   114.55.246.93 从节点      之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。   我是用roo...

文章 2017-11-21 来自:开发者社区

spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解(java、python、r和scala)之环境准备(图文详解)

关于下载,这两个spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包不多赘述。 http://archive.apache.org/dist/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz http://archive.apache.org/dist/spark/spark-2.2.0/sp.....

spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解(java、python、r和scala)之环境准备(图文详解)
文章 2017-11-20 来自:开发者社区

Hadoop概念学习系列之谈hadoop/spark里为什么都有,键值对呢?(四十)

  很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行。 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等。   这是为什么呢?    1、键值对的具体含义   首先,我们会通过强调Java标准库中的类似概念,来阐明我们所说的键值对的含义。 java.util.Map接口是常用类,如HashMap,甚至原始Ha....

文章 2017-11-19 来自:开发者社区

Hadoop概念学习系列之Java调用Shell命令和脚本,致力于hadoop/spark集群(三十六)

第一种:普通做法    首先,编号写WordCount.scala程序。    然后,打成jar包,命名为WC.jar。比如,我这里,是导出到windows桌面。    其次,上传到linux的桌面,再移动到hdfs的/目录。    最后,在spark安装目录的bin下,执行 spark-submit \ > --class cn.spark.stud...

Hadoop概念学习系列之Java调用Shell命令和脚本,致力于hadoop/spark集群(三十六)
文章 2017-11-16 来自:开发者社区

Hadoop完全分布式集群安装Spark

应用场景 当我们安装好Hadoop分布式集群后,默认底层计算是采用MapReduce,速度比较慢,适用于跑批场景,而Spark可以和hadoop完美的融合,Spark提供了更强劲的计算能力,它基于内存计算,速度快,效率高。虽然Spark也支持单机安装,但是这样就不涉及分布式计算,以及分布式存储,如果我们要用Spark集群,那么就需要分布式的hadoop环境,调用hadoop的分布式文件系...

Hadoop完全分布式集群安装Spark
文章 2017-11-15 来自:开发者社区

Hadoop/Spark生态圈里的新气象

令人惊讶的是,Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义。 对于Hadoop你需要了解的最重要的事情就是,它不再是原来的Hadoop。 这边厢,Cloudera有时换掉HDFS改用Kudu,同时宣布Spark是其圈子的核心(因而一概取代发现的MapReduce);那边 厢,Hortonworks加入了Spark阵营。在Clou...

Hadoop/Spark生态圈里的新气象
文章 2017-11-14 来自:开发者社区

Hadoop概念学习系列之2分钟读懂大数据框架Hadoop和Spark的异同(十七)

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。     解决问题的层面不一样   首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据...

文章 2017-11-14 来自:开发者社区

Hadoop伪分布式安装Spark

应用场景 搭建部署了hadoop环境后,使用MapReduce来进行计算,速度非常慢,因为MapReduce只是分布式批量计算,用于跑批的场景,并不追求速率,因为它需要频繁读写HDFS,并不能实时反馈结果,这种跑批的场景用的还是比较少的。一般客户最想看到的是输入后立马有结果反馈。那此时我们就需要在Hadoop伪分布式集群上部署Spark环境了!因为Spark是内存计算,它把计算的中间结果...

文章 2017-11-12 来自:开发者社区

Hadoop概念学习系列之Java调用Shell命令和脚本,致力于hadoop/spark集群(三十六)

前言   说明的是,本博文,是在以下的博文基础上,立足于它们,致力于我的大数据领域! http://kongcodecenter.iteye.com/blog/1231177 http://blog.csdn.net/u010376788/article/details/51337312 http://blog.csdn.net/arkblue/article/details/7897396 &n...

Hadoop概念学习系列之Java调用Shell命令和脚本,致力于hadoop/spark集群(三十六)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注