文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——1.5 小结

1.5 小结 使用Hadoop和Spark的大数据分析大致分为两大类:数据分析和数据科学。数据分析侧重于过去和现在的统计,而数据科学侧重于未来的统计。数据科学项目本质上是迭代的,而数据分析项目则不是迭代的。 Apache Hadoop为你提供了分布式存储和资源管理,Spark为你提供了大数据分析的内存级性能。在大数据分析中,需要根据用例的类型及其可行性来使用各种工具和技术。 下一章将帮助你开始学....

文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——1.4 实际环境中的用例

1.4 实际环境中的用例 让我们来看看大数据分析用例的不同类型。总体而言,大数据分析用例可以分为以下 5 类: 下表显示了大数据分析的典型用例:

文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——1.3 工具和技术

1.3 工具和技术 让我们来看看在 Hadoop 和 Spark 中用于大数据分析的不同工具和技术。 虽然 Hadoop 平台可以用于存储和处理数据,但 Spark 只能通过将数据读入内存来进行处理。 下表展示了典型大数据分析项目中所使用的工具和技术。

文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息。数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用。Google AdWords或Facebook里的“你可能认识的人”就是数据产品的两个例子。 1.2.1 从数据分析到数据科学的根本性转变 从数据.....

文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色

1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 传统的数据分析使用关系型数据库管理系统(Relational Database Management System,RDBMS)的数据库来创建数据仓库和数据集市,以便使用商业智能工具进行分析。RDBMS 数据库采用的是写时模式(Schema-on-Write)的方法,而这种方法有许多缺点。 传统数据仓库的设计思想是用于提取、....

文章 2017-09-01 来自:开发者社区

《Spark与Hadoop大数据分析》——第1章 从宏观视角看大数据分析

第1章 从宏观视角看大数据分析 本书的目标是让你熟悉 Apache Spark用到的工具和技术,重点介绍Hadoop平台上使用的Hadoop部署和工具。大多数Spark的生产环境会采用Hadoop集群,用户在集成 Spark和Hadoop配套的各种工具时会遇到很多挑战。本书将讲解Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和另一种资源协商器....

问答 2017-08-18 来自:开发者社区

hadoop与spark一起使用有做过什么项目吗?

具体做过什么企业实战案例的?

文章 2017-08-17 来自:开发者社区

大数据分析平台Hadoop与Spark之争

ZD至顶网软件频道消息 原创文章(文/邓晓蕾): 有人把大数据称为信息资产、有人称为金矿、甚至社会财富。而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。Gartne认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多...

文章 2017-08-09 来自:开发者社区

英特尔马子雅:Spark与Hadoop合体变大生态系统

ZDNet至顶网软件频道消息 原创文章(文/邓晓蕾): 万物互联的物联网是目前助力“互联网+”的关键技术之一。它生成的网络不仅在规模上空前庞大,也将时时刻刻不间断地产出海量数据信息。据思科预测,至2020年全球就将有500亿台设备实现互联,产生总计为ZB级的数据。作为全球计算力创新的引领者,英特尔在大数据领域深耕已久,在日前第十三届软交会上,英特尔公司软件与服务事业部大数据技术中心全球总...

文章 2017-08-02 来自:开发者社区

使用Docker在本地搭建hadoop,spark集群

本环境使用的单个宿主主机,而不是跨主机集群,本spark集群环境存在的意义可能在于便于本地开发测试使用,非常轻量级和便捷。这个部署过程,最好在之前有过一定的hadoop,spark集群部署经验的基础,本文重点在于docker相关的操作,至于hadoop和spark集群的部署,极力推荐这两个网页: Hadoop集群:http://blog.csdn.net/stark_sum ... 24279。....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注