数据挖掘导论——综合实验(下)
二、数据预处理1、缺失值处理:通过上面数据重复度的统计,发现有缺失值的特征大多数值重复度都比较高,故使用众数填充的方法补充缺失值。2、数值化非数值特征非数值特征只有“notRepairedDamage”,它有‘-’,‘0.0’,‘1.0’三种值。将值‘-’用‘0.0’来代替,并把特征值转为浮点数类型...
数据挖掘导论——综合实验(上)
实验目的与要求结合问题理解,描述三种适用于本题的模型。掌握数据挖掘的基本流程,包括数据分析与预处理,特征过程,模型训练与测试,实验内容文件中给出了一些可以参考的步骤,大家可以自行选择或自由发挥完成各阶段的工作。最后将预测结果文件上传到比赛网站上进行测试,将结果截图,记录分数和排名。试验...
数据挖掘导论——可视化分析实验
商店客流量数据可视化数据来源商店数据来自天池口碑商家客流量预测比赛,这里只筛选了一部分数据。“shop_payNum_new.csv”的数据各个字段的含义如下表所示:实验要求:参考案例一从以下任务中任选5个绘制不同图形的任务:绘制所有便利店的10月的客流量折线图。【代码】import pandas as pd import numpy as...
数据挖掘学习08 - 实验:使用R评估kmeans聚类的最优K
本文目的 最近这几天一直在研究如何评估Kmeans聚类算法中的最优K值。主要理论依据是《数据挖掘导论》8.5.5节中介绍的SSE和Silhouette Coefficient系数的方法评估最优K。现在记录整个实验过程,作为备忘。不过,体验过程中,由于R软件使用的还不太熟练,实现过程中有些地方可能不准确,还请大牛指点。 实验步骤概述 下载实验数据,点击这里。 取k值范围,计算出SSE,并绘制出...
《python 与数据挖掘 》一3.5 上机实验
本节书摘来自华章出版社《python 与数据挖掘 》一书中的第3章,第3.2节,作者张良均 杨海宏 何子健 杨 征,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.5 上机实验 1.实验目的掌握函数的编写和变量的作用域。2.实验内容使用递归算法,编写一个函数计算斐波那契数列的第n项(注意使用该算法求斐波那契数列是很低效的,这里仅作为程序编写的练习)。样本输入:n=10样本输入:89
《python 与数据挖掘 》一 2.6 上机实验
$stringUtil.substring( $!{XssContent1.description},200)...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
瓴羊智能服务
专注于为企业提供数智化转型服务,数据知识挖掘机...方法论、数据技术与产品、最佳行业实践都能聊!
+关注