文章 2023-11-03 来自:开发者社区

04 机器学习 - 数据挖掘与机器学习导论

1. 数据挖掘简而言之,数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。2. 数据挖掘与机器学习的关系机器学习可以用来作为数据挖掘的一种工具或手段;数据挖掘的手段不限于机器学习,譬如还有诸如统计学等众多方法;但机器学习的应用也远不止数据挖掘,其应用领域非常广泛,譬如人工智能;3. 机器学习3.1 定义机器学....

04 机器学习 - 数据挖掘与机器学习导论
文章 2022-12-04 来自:开发者社区

数据挖掘导论——综合实验(下)

二、数据预处理1、缺失值处理:通过上面数据重复度的统计,发现有缺失值的特征大多数值重复度都比较高,故使用众数填充的方法补充缺失值。2、数值化非数值特征非数值特征只有“notRepairedDamage”,它有‘-’,‘0.0’,‘1.0’三种值。将值‘-’用‘0.0’来代替,并把特征值转为浮点数类型。3、异常值处理功率特征power的范围在1 ~ 600之间,因此将超出范围的值截断在正常范围内。....

数据挖掘导论——综合实验(下)
文章 2022-12-04 来自:开发者社区

数据挖掘导论——综合实验(上)

实验目的与要求结合问题理解,描述三种适用于本题的模型。掌握数据挖掘的基本流程,包括数据分析与预处理,特征过程,模型训练与测试,实验内容文件中给出了一些可以参考的步骤,大家可以自行选择或自由发挥完成各阶段的工作。最后将预测结果文件上传到比赛网站上进行测试,将结果截图,记录分数和排名。试验环境本次实验采用PC机进行数据分析,采用服务器进行训练模型并进行预测。【PC机配置】CPU:11th Gen I....

数据挖掘导论——综合实验(上)
文章 2022-12-04 来自:开发者社区

数据挖掘导论——分类与预测(三)

年龄与PClass以及存活率的关系:f,ax=plt.subplots(1,3,figsize=(20,8)) sns.distplot(data[data['Pclass']==1].Fare,ax=ax[0]) ax[0].set_title('Fares in Pclass 1') sns.distplot(data[data['Pclass']==2].Fare,ax=ax[1]) ax....

数据挖掘导论——分类与预测(三)
文章 2022-12-04 来自:开发者社区

数据挖掘导论——分类与预测(二)

完成填充之后,查看填充的结果f,ax=plt.subplots(1,2,figsize=(20,10)) data[data['Survived']==0].Age.plot.hist(ax=ax[0],bins=20,edgecolor='black',color='red') ax[0].set_title('Survived= 0') x1=list(range(0,85,5)) ax[0....

数据挖掘导论——分类与预测(二)
文章 2022-12-04 来自:开发者社区

数据挖掘导论——分类与预测(一)

实验内容背景介绍泰坦尼克号于1909年3月31日在爱尔兰动工建造,1911年5月31日下水,次年4月2日完工试航。她是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉。然而讽刺的是,泰坦尼克号首航便遭遇厄运:1912年4月10日她从英国南安普顿出发,途径法国瑟堡和爱尔兰昆士敦,驶向美国纽约。在14日晚23时40分左右,泰坦尼克号与一座冰山相撞,导致船体裂缝进水。次日凌晨2时2....

数据挖掘导论——分类与预测(一)
文章 2022-12-04 来自:开发者社区

数据挖掘导论——可视化分析实验

商店客流量数据可视化数据来源商店数据来自天池口碑商家客流量预测比赛,这里只筛选了一部分数据。“shop_payNum_new.csv”的数据各个字段的含义如下表所示:实验要求:参考案例一从以下任务中任选5个绘制不同图形的任务:绘制所有便利店的10月的客流量折线图。【代码】import pandas as pd import numpy as np import matplotlib.pyplot....

数据挖掘导论——可视化分析实验
文章 2022-12-04 来自:开发者社区

数据挖掘导论——Python练习

编写一个名为collatz()的函数,它有一个名为number的参数,如果输入的参数是质数,那么collatz()就打印出number,如果number不是质数,则打印3*number+1。输入234输出2313代码import math def collatz(number): if number <= 1: return 3 * number + 1...

数据挖掘导论——Python练习
文章 2022-05-27 来自:开发者社区

【数据挖掘导论】书籍小册(一)绪论

数据挖掘导论一、绪论数据仓库:一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持决策分析。数据挖掘是数据库中知识发现(KDD)不可缺少的一部分,KDD是将未加工的数据转换为有用信息的整个过程。如图:数据预处理:包括清洗数据以便消除噪声和重复的观测值,以及选择与当前数据挖掘任务相关的记录和特征。它是整个知识发现过程中最费力、最耗时的步骤。后处理:将有效和有用的结果集放到决策支持系....

【数据挖掘导论】书籍小册(一)绪论
文章 2019-11-18 来自:开发者社区

带你读《数据挖掘导论(原书第2版)》之三:分类:基本概念和技术

点击查看第一章点击查看第二章 第3章 分类:基本概念和技术 人类具有分类事物的天赋,例如过滤垃圾邮件信息之类的日常任务,或者在望远镜图像中识别天体这类更为特殊的任务(参见图3.1)。虽然对于只有少数几个属性的小而简单的数据集,通常通过手动分类就足以解决,但对更大和更复杂的数据集,仍然需要自动化解决方案。 本章介绍了分类的基本概念,并描述了其中的一些关键问题,如模型过拟合、模型选择和模型评估等。.....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

瓴羊智能服务

专注于为企业提供数智化转型服务,数据知识挖掘机...方法论、数据技术与产品、最佳行业实践都能聊!

+关注