PAI里选择了部分有用的特征,怎么导入下一个组件?

大家好,例如一开始我有20个特征然后根据有效值排序,我只取前10有效的特征再次训练,怎么在PAI里实现?我现在只能拿到前10特征的名字,不知道怎么动态的赋值给一个组件

机器学习笔记——特征标准化

数据标准化是在特征处理环节必不可少的重要步骤。 数据标准化是为了消除不同指标量纲的影响,方便指标之间的可比性,量纲差异会影响某些模型中距离计算的结果。 常见标准化方法主要有归一化、正态化。 数据归一化也即0-1标准化,又称最大值-最小值标准化,核心要义是将原始指标缩放到0~1之间的区间内。相当于对原...

基于Spark的面向十亿级别特征的 大规模机器学习

Apache Spark committer梁闫博在CCTC2017中国云计算技术大会上做了主题为《Deep Dive:How Spark Uses Memory》的演讲,就Vector-free L-BFGS on Spark,Logistic regression on vector-free ...

SparkML机器学习之特征工程(二)特征转化(Binarizer、StandardScaler、MaxAbsScaler、Normalizer、N-gram、Tokenizer等)

特征转化 为什么要转化数据呢,就是要让它成为有效的特征,因为原始数据是很多脏数据无用数据的。常用的方法是标准化,归一化,特征的离散化等等。比如我输入的数据是句子,我得把它切分为一个个单词进行分析,这就是一种转化。 连续型数据处理之二值化:Binarizer 假设淘宝现在有个需求,我得根据年龄来进行物...

机器学习的未来——深度特征融合

即使是最敏锐的技术布道师也无法预测大数据对数字革命的影响。因为他们最初的关注点都聚焦在了扩大基础设施以构建现有服务上。 在提高对现有数据的处理能力时,许多的新技术被提出。关于机器学习的概念最早诞生于科幻小说中,它的新功能很快被人们发现并应用,但随之而来的是无法避免的局限性。 机器学习的局限性 当数据...

双12根本不在话下,阿里首次揭秘扛过双11的千亿级特征分布式机器学习平台XPS

阿里巴巴电商平台有上亿的用户和产品,每天产生百亿规模的用户反馈数据。比如淘宝首页的猜你喜欢场景,每天就有100亿规模的用户行为数据。如此超大规模的训练数据,给分布式机器学习带来了巨大的挑战,也引入了有趣的研究问题。 2017年,阿里巴巴推荐算法团队和计算平台PAI团队合作打造了eXtreme Par...

机器学习特征表达——日期与时间特征做离散处理(数字到分类的映射),稀疏类分组(相似特征归档),创建虚拟变量(提取新特征) 本质就是要么多变少,或少变多

特征表达 接下来要谈到的特征工程类型虽然简单却影响巨大。我们将其称为特征表达。 你的数据并不一定总是理想格式。你需要考虑是否有必要通过另一种形式进行特征表达以获取有用信息。 日期与时间特征: 我们假设你拥有purchase_datetime特征。从中提取purchase_day_of_we...

自动预测保险理赔:用具体案例讲解机器学习之特征预处理

首发地址:https://yq.aliyun.com/articles/65158 本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。 以下为译文: 机器学习:特征预处理 我正在参加Kaggle竞赛,这是预测问题的竞赛,问题表述如下:       ...

Apache Spark机器学习3.3 特征准备

3.3 特征准备 在前面几节,我们选择了模型并且准备了监督学习所需的因变量。本节,我们需要准备自变量,他们是影响因变量因素(销售团队的成功)的所有特征。对于这项重要的工作,我们需要将400多个特征约减为合理的一组特征,以适应最终的建模需要。为此,我们使用PCA方法,利用专业知识,然后执行特征选择任务...

【Spark Summit East 2017】可扩展性机器学习的特征哈希

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Nick Pentreath在Spark ...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

阿里云机器学习平台PAI
阿里云机器学习平台PAI
阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。
2435+人已加入
加入
相关电子书
更多
大规模机器学习在蚂蚁+阿里的应用
基于Spark的面向十亿级别特征的 大规模机器学习
基于Spark的大规模机器学习在微博的应用
立即下载 立即下载 立即下载