文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——导读

前  言 随着数据规模和种类的增长,应用数据挖掘技术从大数据中提取有效信息变得至关重要。这是因为企业认为有必要从大规模数据的实施中获得相应的投资回报。实施数据挖掘的根本性原因是要从大型数据库中发现隐藏的商机,以便利益相关者能针对未来业务做出决策。数据挖掘不仅能够帮助企业降低成本以及提高收益,还能帮助他们发现新的发展途径。 本书将介绍使用R语言(一种开源工具)进行数据挖掘的基本原理。R是一门免费的....

文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——小结

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,小结,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 小结 探索性数据分析几乎是所有类型的数据挖掘项目都要执行的一项重要操作。解读分布、分布的形状和分布的重要参数是相当重要的。提前的假设检验可帮助我们更好地理解数据。不仅是分布及其性质,不同变....

文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——2.9 无参数方法

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.9节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.9 无参数方法 当一个训练数据集不满足任何假定的某种概率分布时,唯一的选择就是通过无参数方法分析数据集。无参数方法不服从概率分布假设。使用无参数方法,我们可以不基于概率分布的前提....

文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——2.8 假设检验

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.8节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.8 假设检验 零假设意味着什么都没有发生、平均值是恒定的,等等。对立假设则意味着有什么发生了,且平均值与总体有所不同。进行假设检验的步骤如下: 1)提出零假设:提出关于总体的假设....

文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——2.7 列联表、二元统计及数据正态性检验

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.7节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.7 列联表、二元统计及数据正态性检验 列联表是由两个或多个分类变量及每个分类所占比例构成的频率表。频率表展示的是一个分类变量,而列联表用来展示两个分类变量。 我们以Cars93数....

文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——2.6 变量分段

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.6节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.6 变量分段 在将连续变量纳入模型之前,需要对其进行处理。以Cars93数据集中的油箱容量为例,基于油箱容量,我们可以创建一个分类变量,值为高、中和低、低中: 油箱容量的值域为.....

文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——2.5 解读分布

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.5节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.5 解读分布 计算概率分布、将数据点拟合于一些特定类型的分布以及后续的解读有助于建立假设。此假设可用于在给定一组参数下估算事件的概率。我们来看看对不同类型分布的解读。 解读连续型....

文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——2.4 解读分布和变换

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.4节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.4 解读分布和变换 为了对所有统计假设检验的前提假设有清晰的认识,理解概率分布至关重要。例如,在线性回归分析中,基本的前提假设是误差分布呈正态分布且变量关系为线性。所以在建立模型....

文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——2.3 多元分析

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.3节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 多元分析 多元分析是指以统计方法观察多个因变量和自变量以及它们之间的关系。本节将简述两个以上变量之间的多元关系,多元分析的细节将于后续章节中详细讨论。多变量之间的多元关系可利....

文章 2017-07-03 来自:开发者社区

《R语言数据挖掘:实用项目解析》——2.2 二元分析

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.2节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.2 二元分析 二元分析是指研究两个变量之间的关系或关联。有三种可能的方向: 数值-数值的关系 数值-分类的关系 分类-分类的关系 假设要判断两个数值变量之间的二元关系。若两个...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

瓴羊智能服务

专注于为企业提供数智化转型服务,数据知识挖掘机...方法论、数据技术与产品、最佳行业实践都能聊!

+关注