文章 2017-05-28 来自:开发者社区

spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解(java、python、r和scala)之Basic包下的SparkTC.scala(图文详解)

spark-1.6.1-bin-hadoop2.6里Basic包下的SparkTC.scala     /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed ...

spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解(java、python、r和scala)之Basic包下的SparkTC.scala(图文详解)
文章 2017-05-02 来自:开发者社区

《深入理解Spark:核心思想与源码分析》——3.5节Hadoop相关配置及Executor环境变量

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第3章,第3.5节Hadoop相关配置及Executor环境变量,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看 3.5 Hadoop相关配置及Executor环境变量3.5.1 Hadoop相关配置信息默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下。val....

文章 2017-05-02 来自:开发者社区

深入理解Spark:核心思想与源码分析. 3.5 Hadoop相关配置及Executor环境变量

3.5 Hadoop相关配置及Executor环境变量 3.5.1 Hadoop相关配置信息 默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下。 val hadoopConfiguration = SparkHadoopUtil.get.newConfiguration(conf) 获取的配置信息包括: 将Amazon S3文件系统的Acces....

文章 2017-05-02 来自:开发者社区

如何选择满足需求的SQL on Hadoop/Spark系统

在批处理时代,Hive一枝独秀;在实时交互式查询时代,呈现出的是百花齐放的局面。Hive onTez, Hive on Spark, Spark SQL, Impala等等,目前看也没有谁干掉谁的趋势。引用今年图灵奖得主Michael Stonebraker的话说,现在的数据库领域已经不是”one size fit all”的时代了。那么面对这么多系统,我们改如何选择呢?这里谈谈这些系统的区别和....

文章 2017-03-08 来自:开发者社区

探秘Hadoop生态10:Spark架构解析以及流式计算原理

导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。 本文依次从spark生态,原理,基本概念,spark streaming原理及实践,还有spark调优以及环境搭建等方面进行介绍,希....

探秘Hadoop生态10:Spark架构解析以及流式计算原理
文章 2017-03-02 来自:开发者社区

【Hadoop Summit Tokyo 2016】像搭乐高一样搭建Storm与Spark Streaming Pipelines块

本讲义出自Arun Murthy在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Arun Murthy与团队的从各种流使用中学习到的最佳实践和经验,演讲的内容非常简单易懂并且非常有趣,在演讲的最后还介绍了像搭乐高一样搭建Storm与Spark Streaming Pipelines块的相应工具。

文章 2017-03-02 来自:开发者社区

【Hadoop Summit Tokyo 2016】基于Apache Spark的数据科学

本讲义出自Robert Hryniewicz在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据科学以及机器学习的相关基本概念以及机器学习的例子,并分享了机器学习的方法,还分享了K-means的聚类方法、决策树以及随机森林等相关知识。

文章 2017-03-01 来自:开发者社区

【Hadoop Summit Tokyo 2016】当Spark邂逅智能电表

本讲义出自Michael Plazzer在Hadoop Summit Tokyo 2016上的演讲,主要分享了Spark在电力行业中的智能电表上的应用,并分享了通过大数据分析能源情况的研究以及能源时间数据序列的相关的内容。

文章 2017-03-01 来自:开发者社区

【Hadoop Summit Tokyo 2016】基于Spark的高性能时空轨迹分析

本讲义出自YongHua (Henry) Zeng在Hadoop Summit Tokyo 2016上的演讲,主要分享了基于Spark的高性能时空轨迹分析的相关背景、架构以及技术设计,在技术设计方面主要讲解了大数据平台的设计、数据治理的设计、算法模型以及Spark轨迹计算等内容,最后还对于高性能时空轨迹分析的未来发展进行了展望。

文章 2017-03-01 来自:开发者社区

【Hadoop Summit Tokyo 2016】Spark上可扩展的深度学习

本讲义出自Matthias Langer、Dr. Zhen He与Dr. Zhen He在Hadoop Summit Tokyo 2016上的演讲,主要介绍了深度学习的基本概念和相关知识,分享了Spark与深度学习的关联,并介绍了La Trobe大学的深度学习系统。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注