R语言非参数方法:使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据
本文考虑一下基于核方法进行分类预测。注意,在这里,我们不使用标准逻辑回归,它是参数模型。 非参数方法 用于函数估计的非参数方法大致上有三种:核方法、局部多项式方法、样条方法。 非参的函数估计的优点在于稳健,对模型没有什么特定的假设,只是认为函数光滑,避免了模型选择带来的风险;但是,表达式复杂,难以解释,计算量大是非参的一个很大的毛病。所以说使用非参有风险,选择需谨慎。 ...
R语言用向量自回归(VAR)进行经济数据脉冲响应研究分析
自从Sims(1980)发表开创性的论文以来,向量自回归模型已经成为宏观经济研究中的关键工具。这篇文章介绍了VAR分析的基本概念,并指导了简单模型的估算过程。 单变量自回归 VAR代表_向量自回归_。为了理解这意味着什么,让我们首先来看一个简单的单变量(即仅一个因变量或内生变量)自回归(AR)模型,其形式为yt=a1yt−1+et。 平稳性 在估算此类模型之前,应...
R语言用线性回归模型预测空气质量臭氧数据
尽管线性模型是最简单的机器学习技术之一,但它们仍然是进行预测的强大工具。这尤其是由于线性模型特别容易解释这一事实。在这里,我将讨论使用空气质量数据集的普通最小二乘回归示例解释线性模型时最重要的方面。 空气质量数据集 空气质量数据集包含以下四个空气质量指标的154次测量: 臭氧:平均臭氧水平,以十亿分之一为单位 Solar.R:太阳辐射 风...
R语言分布滞后线性和非线性模型(DLMs和DLNMs)分析时间序列数据
序言 本文演示了在时间序列分析中应用分布滞后线性和非线性模型(DLMs和DLNMs)。Gasparrini等人[2010]和Gasparrini[2011]阐述了DLMs和DLNMs的发展以及时间序列数据的实现。本文描述的示例涵盖了时间序列数据DLNM方法的大多数标准应用,并探讨了DLNM包用于指定、总结和绘制此类模型。尽管这些例子在空气污染和温度对健康的影响方面有具体的应用,但它们很容...
R语言广义相加模型 (GAMs)分析预测CO2时间序列数据
环境科学中的许多数据不适合简单的线性模型,最好用广义相加模型(GAM)来描述。 这基本上就是具有 光滑函数的广义线性模型(GLM)的扩展 。当然,当您使用光滑项拟合模型时,可能会发生许多复杂的事情,但是您只需要了解基本原理即...
R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据
本文使用lasso或非凸惩罚拟合线性回归,GLM和Cox回归模型的正则化,特别是_最小_最_大凹_度_惩罚_函数_(MCP)_和光滑切片绝对偏差惩罚(SCAD),以及其他L2惩罚的选项( “弹性网络”)。还提供了用于执行交叉验证以及拟合后可视化,摘要,推断和预测的实用程序。 我们研究 前列腺数据,它具有8个变量和一个连续因变量,即将进行根治性前列腺切除术的男性的PSA水平(按对数尺度):...
R语言ISLR工资数据进行多项式回归和样条回归分析2
Boston数据回归 这个问题使用的变量dis(到五个波士顿就业中心的距离的加权平均值)和nox(每百万人口中一氧化氮的浓度,单位为百万)。我们将dis作为预测变量,将nox作为因变量。 1. rm(list = ls()) 2. set.seed(1) ...
R语言ISLR工资数据进行多项式回归和样条回归分析11
执行多项式回归使用age预测wage。使用交叉验证为多项式选择最佳次数。选择了什么程度,这与使用ANOVA进行假设检验的结果相比如何?对所得多项式拟合数据进行绘图。 加载工资数据集。保留所有交叉验证误差的数组。我们执行K=10 K倍交叉验证。 1. rm...
用R语言挖掘Twitter数据
Twitter是一个流行的社交网络,这里有大量的数据等着我们分析。Twitter R包是对twitter数据进行文本挖掘的好工具。本文是关于如何使用Twitter R包获取twitter数据并将其导入R,然后对它进行一些有趣的数据分析。 ...
R语言HAR和HEAVY模型分析高频金融数据波动率
摘要 在学术界和金融界,分析高频财务数据的经济价值现在显而易见。它是每日风险监控和预测的基础,也是高频交易的基础。为了在财务决策中高效利用高频数据,高频时代采用了最先进的技术,用于清洗和匹配交易和报价,以及基于高收益的流动性的计算和预测。 高频数据的处理 在本节中,我们讨论高频金融数据处理中两个非常常见的步骤:(i)清理和(ii)数据聚合。 ...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。