中国人工智能学会通讯——机器学习在商务智能中的创新应用 1.4 为什么要重视非结构化数据
1.4 为什么要重视非结构化数据 接下来我想简单地介绍一下大家可能听过的一些内容,如果大家不熟悉我想再说明一下为什么非结构化的数据能够扮演如此重要的角色。在商业分析的领域中,人们希望能够借助时间序列、回归等听起来很酷炫的机器学习办法来分析问题,这可能是一些销售噱头,但是这个不重要。 我想说的是,为什么图中会有这么多的上升和下降?企业使用诸如真实气象数据这样的数字数据,希望能找到更多的商业营销卖.....
中国人工智能学会通讯——一种基于众包的交互式数据修复方法 6 结束语
6 结束语 在本文提出的交互式修复方法CrowdAidRepair,通过众包提高了已有的基于规则的修复方法的修复质量。大量的实验数据显示,该方法生成的交互方案可以平均减少60%的成本,并且达到了和单纯依赖于众包修复几乎一样高的修复质量。在未来的工作中,我们可能会考虑将该方法与其他先进的基于模型的方法进行结合,并将其应用到既有数据错误也有数据丢失的数据集中。 本研究获得中国国家自然科学基金 ( 项....
中国人工智能学会通讯——一种基于众包的交互式数据修复方法 5 相关工作
5 相关工作 数据修复旨在发现和修正数据库中错误的数据。在过去的几十年里,研究人员提出了各种各样自动发现并修复数据库中错误数据的方法[1]。这些方法大致可以分为如下三类。 (1)传统的方法先依赖各种约束条件,包括FDs[5,7]、CFDs[6]、完整性约束[4]和包含关系(INCs)[5]来检测数据中的由错误数据引起的不一致性(或冲突);然后用文献[2-4]中的方法修正所有的错误数据,从而解决所....
中国人工智能学会通讯——当人工智能“科学遇到艺术”的一点杂谈 1.3 数据的艺术
1.3 数据的艺术 最后一点,我觉得艺术也许可以从一个新的角度来理解技术。作为技术出身的人,在他们眼中可能是数据的艺术。 左边是我的学生统计的样本概率分布图,就是从客服对话中挑出投诉的内容,其中类别比例不平衡到连百里挑一都不到。他做出后给我看了左边这个图,蓝色和绿色是普通文本,其中的红点是他的算法能挑出来的,这个好像是另外一种数据的艺术,这个中间有我们人的创造在里,有一种众里寻他千百度的感觉。.....
中国人工智能学会通讯——一种基于众包的交互式数据修复方法 3 给定质量约束下的交互式算法
3 给定质量约束下的交互式算法 为了生成一个有效的交互式方案,我们提出了自己的算法,其中的关键问题是在众包修复过程中如何选择被众包修复的值。 首先,我们倾向于选择引起数据冲突最多的值进行众包修复,这样就会有更多的值在下一步的基于规则的修复过程中可以被推导。为了找出引起数据间冲突最多的值,先评估每个值的不和谐度disharmonious degree(简称为dScore),表示这个值和数据集中其他....
中国人工智能学会通讯——数据助力智能驾驶体验
我个人的经历,之前也从事人工智能方面的工作,多数在语音识别研究和应用。从去年加入数据堂以来,专注于在AI数据。数据和人工智能之间的关系,我想大家都很了解,也不言而喻,数据是一个非常重要的方面。数据跟我们的算法之间是什么关系。我喜欢用这样一个比喻,数据是一个教材,算法像是一个老师,老师用教材去教导你未来想要产生的人工智能的任何一个应用,比如说在今天的论坛上——智能驾驶,智能驾驶就是智能应用的一个孩....
中国人工智能学会通讯——一种基于众包的交互式数据修复方法 2 前期工作和问题陈述
2 前期工作和问题陈述 2.1 基于规则的修复方法 定义1一个集合被定义为正确集合当且仅当集合中所有的值均正确。如果这两个集合不可以同时都是正确集合,我们说这两个集合之间存在冲突(Conflict)。 基于规则的修复方法依赖预定义的质量规则检测数据之间的冲突,并希望通过清洗引起冲突的错误达到解决这些冲突的目的。本文以FD/CFD为例来展示我们的方法是如何执行的。为了便于理解,给出一个运行示例。 ....
中国人工智能学会通讯——AI如何深度应用于消费金融的风控决策 1.2 在人工智能的业务实践中,长尾数据和特征能很大提升信用评分的准确性。
1.2 在人工智能的业务实践中,长尾数据和特征能很大提升信用评分的准确性。 例如客户在App中拖动借款金额滚动条时的停留时间,反映了客户的不同心理,对应不同的违约率。通过尽可能多地采集“弱变量”训练机器学习模型,就可以用丰富的维度来描述一个薄文件客户,使得机器对客户有全面的认知,作出比传统的强变量建模方式更加精准、全面的判断。
中国人工智能学会通讯——众包中的统计推断与激励机制 2 如何提高众包数据的质量
2 如何提高众包数据的质量 众包存在的问题 可是,通过众包获取的数据标签质量或许不高。主要原因如下。 ●专业技能。因为众包人员可能没有标记你的数据所需的技能。●动机。众包人员没有动力好好地把这个数据标记好。 如果使用低质量的数据去训练一个机器学习模型,不管使用什么高级的算法都可能无济于事。 众包中的统计推断 在一定程度上,统计推断可以帮助我们从低质量的通过众包获得的数据标签中提炼出正确的标签。 ....
蓝色巨人的人工智能发展史:沃森为名,数据为实
对于IBM的“认知”AI雄心,Jeopardy问答竞赛仅仅是个开端。 一位数据专家在如今的企业领域确立了自己的名号,同时亦引发了广泛关注。他拥有着闪电般敏捷的思维与极强的学习能力,会说八种语言,并在多个方向上具备深入理解。他拥有着一套堪称典范的工作思路,阅读速度极快,同时拥有着他人所无法企及的洞穴能力。就个人而言,他是一位全方位的发展的通才,甚至能够提供相当靠谱的约会建议。 这位大牛到底是何方.....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。