特征离散

特征离散算法组件是将连续性特征按照一定的规则进行离散化。功能介绍 离散模块的功能如下:支持稠密数值类特征离散。支持等频离散和等距离离散等无监督离散。说明 无监督离散的特征离散默认为等距离离散。支持基于Gini增益离散和基于增益...

基于分箱组件实现连续特征离散

本文为您介绍如何使用分箱组件进行连续特征离散化。前提条件 完成项目的创建,详情请参见创建项目。背景信息 特征离散是将连续的数据进行分段,使其变为多个离散化区间。针对该场景,PAI推出了分箱组件,支持等频分箱、等宽分箱及自动分箱...

数据转换模块

通过数据转换模块可以对数据进行归一化、离散化、Index化或WOE转换。配置组件 PAI-Studio支持通过可视化或PAI命令方式,配置数据转换模块组件的参数:可视化方式 页签 参数 描述 字段设置 输入表选择的特征列 输入的特征列,默认选择全表。...

阿里云试用中心,为您提供0门槛上云实践机会!

100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!
广告

分箱

通过分箱组件可以进行特征离散化,即将连续的数据进行分段,使其变为多个离散化区间。分箱组件支持等频分箱、等宽分箱及自动分箱。组件配置 PAI-Studio支持通过可视化或PAI命令方式,配置分箱组件的参数:可视化方式 页签 参数 描述 字段...

离散值特征分析

本文为您介绍PAI-Studio提供的离散值特征分析。离散值特征分析统计离散特征的分布情况。包括gini,entropy,gini gain,information gain,information gain ratio等指标。计算每个离散值对应的gini,entropy,计算单列对应的gini gain,...

数据建模

字段规则说明:配置项 说明 最大值 对应分区,该字段的最大值与期望的固定值进行比较,符合规则则通过。比较方式包括:>、、>=、、=和!最小值 对应分区,该字段的最小值与期望的固定值进行比较,符合规则则通过。比较方式包括:>、、>=、、...

决策树

参数说明IN端口算法参数参数名描述默认值范围特征分裂指标衡量分割质量的功能基尼系数基尼系数信息特征切分策略用于在每个节点上选择拆分的策略。最佳:选择最佳拆分。随机:选择随机拆分。最佳最佳随机最大深度各个回归估计量的最大深度...

线规则内置模板说明

本文为您介绍数据质量的校检逻辑及线数据的内置模板规则。基本概念 样本:当天采集的具体的样本的值。例如对于SQL任务表行数,1天波动检测,则样本是当天分区的表行数。基准值:历史样本的对比值。如果规则是SQL任务表行数,1天波动检测...

生产过程追溯

属性上报方式适用于离散型或者流程型生产方式,选中设备的物模型中的属性能准确上报设备什么时候开始生产、什么时候结束生产并能确认生产的唯一标识(生产批次号或者产品序列号等)。下图为例:选中属性上报方式,然后从物联网设备属性中...

随机森林

10000]特征分裂指标衡量分割质量的功能基尼系数基尼系数信息熵最大深度各个回归估计量的最大深度。最大深度限制了树中节点的数量。1[-1, 99999999]最小分割样本下限拆分内部节点所需的最少样本数2[0, 99999999]节点最少样本数在叶节点处...

有序聚集函数

返回频繁的输入值。如果有多个频度相同的值,则返回第一个。无 任何可排序类型。示例 select&mode()&WITHIN&GROUP& (ORDER&BY&user_id)&from&testtable;结果 293890 与排序表达式相同。percentile_cont(fraction)WITHIN GROUP(ORDER BY&...

one-hot编码

当使用模型编码新数据时,如果在模型映射表中无法找到数据中的离散量,则忽略该离散量,即不对该离散量编码。如果需要对其进行编码,请重新训练模型映射表。示例 使用SQL语句,生成训练数据。PAI-project projectxlib4-name one_hot-...

了解相关功能

空间插值常用于将离散点的测量数据转换为连续的数据曲面,以便与其它空间现象的分布模式进行比较。通过空间差值,您可以根据已知的监测站点监测出的数据,去推算其他任意空间位置的数据。再根据数值处在的不同区间范围,去映射对应的颜色,...

SmartData 3.1.x版本简介

Jindo DistCp目前支持的文件最大不能超过78 GB。JindoFS Block模式虽然支持checksum功能,但Jindo DistCp暂不支持checksum功能。功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 ...

朴素贝叶斯

朴素贝叶斯是一种基于独立假设的贝叶斯定理的概率分类算法。组件配置 PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数:可视化方式 页签 参数 描述 字段设置 特征列 默认为除标签列外的所有列,支持DOUBLE、STRING及BIGINT数据...

如何查询配额的调整范围?

您可以通过配额中心控制台查询配额的调整范围。在配额中心控制台配额...如果申请配额项显示为一个调整框或下拉列表,说明该配额的取值是离散的,其取值可以在该调整框或下拉列表中设置。如果申请配额项未显示,说明该配额没有设置调整范围。

序言

根据2018年12月中国信通院发布的《数据资产管理实践白皮书3.0》:近年来,中国数据和商业数据分析市场规模增速是世界平均增速的2倍,特别是银行业、离散制造业、流程制造业和政府等行业需求尤其旺盛。然而,如此可观的增速背后却藏匿着较...

数据分布策略

REPLICATED指定数据为复制分布,即每个节点(Segment)上有该表的全量数据,这种分布策略下表数据将均匀分布,因为每个节点都存储着同样的数据行,当有表与小表JOIN,把足够小的表指定为replicated也可能提升性能。建表语句示例如下:...

错误处理

实体过 400 EntityTooSmall 实体过小 400 FileGroupTooLarge 文件组过 400 InvalidLinkName Object Link与指向的Object同名 400 LinkPartNotExist Object Link中指向的Object不存在 400 ObjectLinkTooLarge Object Link中Object个数...

评分卡训练

评分卡是信用风险评估领域常用的建模工具,其原理是通过分箱输入将原始变量离散化后再使用线性模型(逻辑回归或线性回归等)进行模型训练,其中包含特征选择及分数转换等功能。同时也支持在训练过程中为变量添加约束条件。说明 如果未指定...

支持Flink可恢复性写入JindoFS或OSS

背景信息 可恢复性写入功能支持将数据以EXACTLY_ONCE语义写入存储介质,在数据场景下保证了数据的安全性和一致性。在Flink作业中的用法 通用配置 为了支持EXACTLY_ONCE语义写入JindoFS或OSS,您需要执行如下配置:打开Flink的检查点...

使用EasyRec构建推荐模型

输入为整数时(例如6|20|32),可以配置该参数为其中的最大值。embedding_dim Embedding Dimension,与IdFeature中的该参数类似。SequenceFeature embedding_dim Embedding Dimension。feature_configs { input_names:"play_sequence...

GetRegionConfiguration

key String 5.5_with_X-Pack 支持的版本号。value String 5.5.3_with_X-Pack 支持的小版本号全称。instanceSupportNodes List["WORKER","WORKER_WARM", COORDINATING","KIBANA","MASTER","ELASTIC_WORKER"]区域开放的实例节点类型。...

测试数据构建

在以往的方案中可能会选择以下几种方式:手工辛苦编写导入:效率低,且不适用于数据量场景。维护生成脚本:成本高,且不通用每次都得改,数据离散性不足。生产环境数据导出后写入测试环境:不安全,存在数据泄露风险。实际开发过程中可能...

扫一扫简介

码与图片叠加):Gen2(在 Gen1 码基础上优化点阵的离散化,同时带隐藏码):Gen3(visualead 自定义码):一维条形码(条码) EAN8:EAN13:EAN14:EAN18:EAN128:ISBN:ISSN:Code39:Code128:UPC-A:UPC-E: ITF-14:产品优势mPaaS 的...

APPROX_COUNT_DISTINCT

DISTINCT计算能提升查询性能,尤其是对于column的离散值比较的情况,误差率平均可以控制在0.1%以内。该函数适用于对性能敏感并且可以接受误差的场景。同时,您也可以通过COUNT DISTINCT(column)的方式进行精确的COUNT DISTINCT计算。示例...

Auto ML自动特征工程使用说明

thalach的特征最大值为4 oldpeak的特征最大值为3 ca的特征最大值为4 执行如下SQL语句获取最大值。select max(feature) from table;在本实验样例数据中,所有分桶完的特征的最大值均为4。于是智能特征交叉的特征长度范围要写成如下图样式。...

雾霾天气预测

本文通过分析北京一年的真实天气数据,构建雾霾天气预测模型,从而挖掘对雾霾天气(指PM 2.5)影响最大的污染物。数据集 本实验为2016年全年(以小时为单位)的北京空气指标数据,具体字段如下。字段名 类型 描述 time STRING 日期,精确到...

数据视图

参数设置 连续特征离散区间数 连续性特征等距离划分最大区间数。执行调优 计算核心数 计算的核心数,取值范围为正整数。每个核心内存 每个核心的内存,取值范围为1 MB~65536 MB。PAI命令PAI-name fe_meta_runner-project algo_public-...

敏感信息检测

什么是敏感信息检测敏感信息检测功能,可以检测代码库中的敏感凭证和密钥,比如 API keys 等信息。集成在合并请求代码评审阶段,可以有效防止敏感信息意外提交。敏感信息问题等级分为:BLOCKER,CRITICAL,MAJORBLOCKER: 通过规则扫描出来的...

异常处理

EntityTooLarge 实体过 400 EntityTooSmall 实体过小 400 FileGroupTooLarge 文件组过 400 FilePartNotExist 文件分片不存在 400 FilePartStale 文件分片过时 400 InvalidArgument 参数格式错误 400 InvalidAccessKeyId AccessKeyId不...

ListQualityResultsByRule

PageSize Integer 是 10 每页显示的条数,默认为10条,最大100条。ProjectName String 是 autotest 需要进行数据质量校验的引擎或者数据源名称。RuleId Integer 是 152322134 使用的校验规则ID。您可以使用该规则ID与分区表达式等信息进行...

ListQualityResultsByEntity

PageSize Integer 是 10 每页显示的条数,默认为10条,最大100条。ProjectName String 是 autotest 引擎或者数据源的名称。您可以从数据源配置中获取名称。StartDate String 是 2020-09-20 00:00:00 查询校验结果的开始时间,格式为yyyy-MM...

管理分区

LIST分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。分区表达式可以对数据...

名词解释

名词 说明 维度 维度是度量的环境,用来反映业务的一类属性,如时间、地域、性别、类别等等,是一组离散的值。度量 即被聚合(观察)的统计值。是聚合运算的结果,如UV(用户数)、交易金额等经过统计的数值。数据集 以二维表表现的数据...

表分布定义

相同的值将始终列到同一个节点。选择唯一的分布键(例如Primary Key)将确保较均匀的数据分布。哈希分布是表的默认分布策略,如果创建表时未提供DISTRIBUTED子句,则将PRIMARY KEY或表的第一个合格列用作分布键。如果表中没有合格的列,...

低成本RDS历史库

支持自适应压缩,针对数据的不同类型和特点,系统将自动选择混合的字典、前缀、Delta、编码等压缩算法,相比业界通用算法,整体压缩率提升10%~30%。云原生弹性Lindorm基于存储计算分离的架构,支持计算资源、存储资源的独立弹性伸缩,最大...

低成本历史库

支持自适应压缩,针对数据的不同类型和特点,系统将自动选择混合的字典、前缀、Delta、编码等压缩算法,相比业界通用算法,整体压缩率提升10%~30%。云原生弹性Lindorm基于存储计算分离的架构,支持计算资源、存储资源的独立弹性伸缩,最大...

低成本历史库

支持自适应压缩,针对数据的不同类型和特点,系统将自动选择混合的字典、前缀、Delta、编码等压缩算法,相比业界通用算法,整体压缩率提升10%~30%。云原生弹性Lindorm基于存储计算分离的架构,支持计算资源、存储资源的独立弹性伸缩,最大...

PS-SMART多分类

参数服务器PS(Parameter Server)致力于解决规模的线及在线训练任务,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decesion Tree)基于PS实现的迭代算法。PS-SMART支持百亿样本及几十万特征的训练...
< 1 2 3 >
共有3页 跳转至: GO

新品推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折

你可能感兴趣

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折