《Scala机器学习》一一1.5 使用Scala和Spark的Notebook工作
1.5 使用Scala和Spark的Notebook工作通常,这五种数字汇总方式不足以对数据形成初步认识。描述性统计(descriptive statistics)的术语非常通用,并且可以采用非常复杂的方法来描述数据。分位数和帕雷托图(Pareto chart)都是描述性统计的例子,当分析一个以上的属性时,相关性也是。在大多数情况下都能查阅到这些数据汇总的方法,但通过具体的计算来理解这些方法也很....
《Scala机器学习》一一1.3 数值字段概述
1.3 数值字段概述虽然数据集的大多数列可能是类别(categorical)类型或复杂类型,但这里还是要介绍一下数值数据。通常数值数据会有五种汇总方式,即中位值、均值、四分位数、最小值和最大值。Spark执行中位数和四分位数会特别简单,因此在介绍Spark的DataFrame时再来介绍这两种汇总方式。下面是采用Scala中相应的运算符来计算均值、最小值和最大值: 在多个字段上grep有时需要知道....
《Scala机器学习》一一1.4 基本抽样、分层抽样和一致抽样
1.4 基本抽样、分层抽样和一致抽样相当多的数据分析人员蔑视采样。通常要想处理整个数据集,只有改进模型。实际上,在这两者之间进行权衡会很复杂。首先,可以在抽样的数据集上建立更复杂的模型,特别是模型的时间复杂度是非线性(比如在大多数情况下至少是N* log(N))时更是如此。用更快的周期构建模型可让用户能更快地迭代模型,使其按最佳方式收敛。在很多情况下,若在整个数据集上建立模型,则在改进预测精度时....
《Scala机器学习》一一1.2 去除分类字段的重复值
1.2 去除分类字段的重复值请准备好数据集和电脑。为了方便起见,本书已经提供了一些关于点击流(clickstream)数据的样本,它们是经过预处理过的,在https://github.com/alexvk/ml-in-scala.git上可以找到这些数据。chapter01/data/clickstream文件夹中包含了时间戳、会话编号(session ID),以及在调用时的一些额外事件信息(比....
《Scala机器学习》一一1.1 Scala入门
1.1 Scala入门如果已经安装了Scala,可以跳过本节。可以从http://www.scala-lang.org/download/下载最新版本的Scala,本书的Scala版本为2.11.7,操作系统为Mac OS X El Capitan 10.11.5。读者可以选择自己喜欢的版本,不过可能会遇到与其他包(如Spark)的兼容性问题。开源软件的一个通病就是所采用的技术可能会滞后几个版本....
《Scala机器学习》一一第1章 探索数据分析
**第1章探索数据分析**在本书深入研究复杂的数据分析方法之前,先来关注一些基本的数据探索任务,这些任务几乎会占据数据科学家80%~90%的工作时间。据估计,每年仅仅是数据准备、清洗、转换和数据聚合就有440亿美元的产值(Data Preparation in the Big Data Era by Federico Castanedo; Best Practices for Data Inte....
机器学习新星:Scala 优于 Java 的五大理由!
Java 在程序猿江湖的霸主地位已经很多年没有受到挑战了。 作为一门主流编程语言,在所有领域的普及率、职业选择、业界倾向榜单中,Java 即使不在榜首,也位于前列。即便是 Python 为王的机器学习领域,Java 的普及程度也稳居第二、三位,仅有 R 语言可与之相比。Java 能有如此巨大的成功,跟它的灵活多功能,以及处理复杂任务的能力是分不开的。但有没有比 Java 更好的选择呢? 就雷...
《Scala机器学习》一一1.7 总结
本节书摘来自华章计算机《Scala机器学习》一书中的第1章,第1.7节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.7 总结 本章试图为后面更复杂的数据科学建立一个通用平台。不要认为这里介绍了一套完整的探索性技术,因为探索性技术可扩展到非常复杂的模式上。但是,本章已经涉及了简单的汇总、抽样、文件操作(如读和写),并使用n....
《Scala机器学习》一一3.7 总结
本节书摘来自华章计算机《Scala机器学习》一书中的第3章,第3.7节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.7 总结 本章概述了Spark/Hadoop以及它们与Scala和函数式编程的关系。重点介绍了一个经典的单词计数的例子,它是用Scala和Spark来实现的,并以单词计数和流为例介绍了Spark生态系统的高....
《Scala机器学习》一一3.6 运行Hadoop的HDFS
本节书摘来自华章计算机《Scala机器学习》一书中的第3章,第3.6节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.6 运行Hadoop的HDFS 没有分布式存储的分布式框架是不完整的。HDFS是其中的一种分布式存储。即使Spark在本地模式下运行,它仍然可以在后台使用分布式文件系统。与Spark将计算任务分解成子任务一....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
Scala更多机器学习相关
开发与运维
集结各类场景实战经验,助你开发运维畅行无忧
+关注