文章 2017-05-02 来自:开发者社区

Apache Spark机器学习.2.1 访问和加载数据集

摘要 Spark机器学习的数据准备 机器学习从业者和数据科学家时常耗费70%或80%的时间为机器学习项目准备数据。数据准备可能是很艰辛的工作,但是它影响到接下来的各方面工作,因此是非常必要和极其重要的。所以,在本章中,我们将讨论机器学习中所有必要的数据准备方面的内容,通常包括数据获取、数据清洗、数据集连接,再到特征开发,从而让我们为基于Spark平台构建机器学习模型准备好数据集。具体而言,我们将....

文章 2017-02-19 来自:开发者社区

【Spark Summit East 2017】构建于高维文档数据集上的基于时间戳的实时分析查询处理与预测模型

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Debasish Das在Spark Summit East 2017上的演讲,主要介绍了对于LuceneDAO进行的扩展,允许其从文档术.....

文章 2017-02-18 来自:开发者社区

【Spark Summit East 2017】迈向实时:为个性化创建不断更新频率的数据集

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Shriya Arora在Spark Summit East 2017上的演讲,主要介绍了NETFLIX使用Spark处理个性化数据集空间.....

文章 2017-02-18 来自:开发者社区

【Spark Summit East 2017】使用ADAM处理Terabyte级基因数据集

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Frank Austin Nothaft在Spark Summit East 2017上的演讲,主要介绍了构建于Spark分布式计算框架之.....

文章 2017-02-18 来自:开发者社区

【Spark Summit East 2017】使用Spark和Elasticsearch构建数据集搜索引擎

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Oscar Castaneda Villagran在Spark Summit East 2017上的演讲,主要介绍了利用内置了Elasti.....

文章 2017-01-27 来自:开发者社区

用Spark分析Amazon的8000万商品评价(内含数据集、代码、论文)

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 亚马逊的商品评论和评分是一个非常重要的业务。 亚马逊上的客户经常基于这些评论做出购买决定,并且单个不良评论可以导致潜在购买者重新考虑。 几年前,我写.....

文章 2016-11-27 来自:开发者社区

Spark Mllib里数据集如何取前M行(图文详解)

    见具体,                    本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/7455639.html,如需转载请自行联系原作者

Spark Mllib里数据集如何取前M行(图文详解)
文章 2016-04-05 来自:开发者社区

颠覆大数据分析之Spark弹性分布式数据集

颠覆大数据分析之Spark弹性数据集 译者:黄经业    购书 Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多。它仅需从HDFS到Spark中的分布式共享对象空间的一次读入——从HDFS文件中创建RDD...

颠覆大数据分析之Spark弹性分布式数据集
文章 2013-08-15 来自:开发者社区

Spark RDDs(弹性分布式数据集):为内存中的集群计算设计的容错抽象

本文是阅读《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》过程中,抽了局部一些关注点翻译出来的文章,没有将全文都翻译。希望这些碎片化甚至不通顺的记录,可以帮助读者取代阅读原论文。 论文地址http://www.cs.berkeley.edu/~matei/.....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注