特征变换

取值如下:IsometricDiscretization(等距离散)IsofrequecyDiscretization(等频离散)Gini-gain-basedDiscretization(基于Gini增益离散)Entropy-gain-basedDiscretization(基于增益离散离散区间离散区间大小。取值为大于1的正整数...

基于分箱组件实现连续特征离散

本文为您介绍如何使用分箱组件进行连续特征离散化。前提条件完成项目的创建,详情请参见创建项目。背景信息特征离散是将连续的数据进行分段,使其变为多个离散化区间。针对该场景,PAI推出了分箱组件,支持等频分箱、等宽分箱及自动分箱。...

离散值特征分析

本文为您介绍PAI-Studio提供的离散值特征分析。离散值特征分析统计离散特征的分布情况。包括gini,entropy,ginigain,infomationgain,infomationgainratio等指标。计算每个离散值对应的gini,entropy,计算单列对应的ginigain,...

阿里云试用中心,为您提供0门槛上云实践机会!

100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!
广告

不带标签的用户冷启动

可设算法参数:参数名默认值描述discreteMethodSameDistance特征离散化方法,可取值:[SameDistance,SameFreq],其中SameDistance为等距离,SameFreq为等频离散maxBins5特征离散化区间个数主要逻辑线模块step1:采用特征工程子模板,...

基于因子分解的推荐

可设算法参数:参数名默认值描述discreteMethodSameDistance特征离散化方法,可取值:[SameDistance,SameFreq],其中SameDistance为等距离,SameFreq为等频离散maxBins5特征离散化区间个数主要算法逻辑线模块step1:评分矩阵建模​基于...

金融板块

分箱通过分箱组件可以进行特征离散化,即将连续的数据进行分段,使其变为多个离散化区间。分箱组件支持等频分箱、等宽分箱及自动分箱。PAI-Studio支持通过可视化或PAI命令方式,配置分箱组件的参数:可视化方式页签参数描述字段设置特征列...

基于内容的推荐

可设算法参数:参数名默认值描述discreteMethodSameDistance特征离散化方法,可取值:[SameDistance,SameFreq],其中SameDistance为等距离,SameFreq为等频离散maxBins5特征离散化区间个数主要算法逻辑线模块step1:评分矩阵建模​基于...

带标签的用户冷启动

SameFreq],其中SameDistance为等距离,SameFreq为等频离散maxBins5离散化区间个数主要逻辑线模块step1:根据历史行为采用itemcf算法产出用户的推荐候选物品集。详细的itemcf算法参照【基于itemcf的推荐模板】。step2:采用参数中配置...

物品冷启动

可设算法参数:参数名默认值描述discreteMethodSameDistance特征离散化方法,可取值:[SameDistance,SameFreq],其中SameDistance为等距离,SameFreq为等频离散maxBins5特征离散化区间个数主要逻辑线模块step1:根据历史行为采用itemcf...

决策树

参数说明IN端口算法参数参数名描述默认值范围特征分裂指标衡量分割质量的功能基尼系数基尼系数信息特征切分策略用于在每个节点上选择拆分的策略。最佳:选择最佳拆分。随机:选择随机拆分。最佳最佳随机最大深度各个回归估计量的最大深度...

线规则内置模板说明

本文为您介绍数据质量的校检逻辑及线数据的内置模板规则。基本概念样本:当天采集的具体的样本的值。例如对于SQL任务表行数,1天波动检测,则样本是当天分区的表行数。基准值:历史样本的对比值。如果规则是SQL任务表行数,1天波动检测,...

生产过程追溯

属性上报属性上报方式适用于离散型或者流程型生产方式,选中设备的物模型中的属性能准确上报设备什么时候开始生产、什么时候结束生产并能确认生产的唯一标识(生产批次号或者产品序列号等)。下图为例:选中属性上报方式,然后从物联网设备...

随机森林

100[1,10000]特征分裂指标衡量分割质量的功能基尼系数基尼系数信息熵最大深度各个回归估计量的最大深度。最大深度限制了树中节点的数量。1[-1,99999999]最小分割样本下限拆分内部节点所需的最少样本数2[0,99999999]节点最少样本数在叶节点...

数据建模

离散值分组个数对应分区,字段分组,各散点count值与一个期望固定值进行比较,符合则规则通过。比较方式包括:>、、>=、、=和!离散值状态值对应分区,字段分组,离散点总数与一个期望固定值进行比较,符合则规则通过。比较方式包括:>、...

SmartData 3.1.x版本简介

JindoDistCp目前支持的文件最大不能超过78GB。JindoFSBlock模式虽然支持checksum功能,但JindoDistCp暂不支持checksum功能。功能变更JindoFS存储优化JindoFS缓存优化JindoTable计算优化JindoManager系统管理JindoTools工具集JindoFS生态...

有序聚集函数

函数描述直接参数类型聚集参数类型示例返回类型mode()WITHINGROUP(ORDERBY sort_expression)返回频繁的输入值。如果有多个频度相同的值,则返回第一个。无任何可排序类型。示例select mode()WITHIN GROUP(ORDER BY user_id)from ...

了解相关功能

制作可视化应用时,您可能需要用到以下几种功能:空间插值等值面组件时间轴组件空间插值空间插值常用于将离散点的测量数据转换为连续的数据曲面,以便与其它空间现象的分布模式进行比较。通过空间差值,您可以根据已知的监测站点监测出的...

如何查询配额的调整范围?

您可以通过配额中心控制台查询配额的调整范围。在配额中心控制台配额...如果申请配额项显示为一个调整框或下拉列表,说明该配额的取值是离散的,其取值可以在该调整框或下拉列表中设置。如果申请配额项未显示,说明该配额没有设置调整范围。

序言

根据2018年12月中国信通院发布的《数据资产管理实践白皮书3.0》:近年来,中国数据和商业数据分析市场规模增速是世界平均增速的2倍,特别是银行业、离散制造业、流程制造业和政府等行业需求尤其旺盛。然而,如此可观的增速背后却藏匿着较...

错误处理

Type非法400SignatureDoesNotMatch签名错误403TooManyBuckets用户的Bucket数目超过限制400InvalidEncryptionAlgorithmError指定的编码加密算法错误400说明上表中的错误码即OssServiceError.Code,HTTP状态码即OssServiceError.StatusCode...

支持Flink可恢复性写入JindoFS或OSS

背景信息可恢复性写入功能支持将数据以EXACTLY_ONCE语义写入存储介质,在数据场景下保证了数据的安全性和一致性。在Flink作业中的用法通用配置为了支持EXACTLY_ONCE语义写入JindoFS或OSS,您需要执行如下配置:打开Flink的检查点...

使用EasyRec构建推荐模型

num_buckets输入为整数时(例如6|20|32),可以配置该参数为其中的最大值。embedding_dimEmbeddingDimension,与IdFeature中的该参数类似。SequenceFeatureembedding_dimEmbeddingDimension。feature_configs{input_names:"play_sequence...

使用AutoML优化XGBoost训练

eta通过缩减特征的权重使提升计算过程更加保守name:eta#枚举的离散化eta参数,range:[0,1],default:0.3candidates:[0.1,0.2]-type:Categorical#树的最大深度name:max_depth#枚举的离散化max_depth,range:[1,+∞],default:6candidates:[6,7,8...

GetRegionConfiguration

keyString5.5_with_X-Pack支持的版本号。valueString5.5.3_with_X-Pack支持的小版本号全称。instanceSupportNodesList["WORKER","WORKER_WARM","COORDINATING","KIBANA","MASTER","ELASTIC_WORKER"]区域开放的实例节点类型。...

特征生成

当使用模型编码新数据时,如果在模型映射表中无法找到数据中的离散量,则忽略该离散量,即不对该离散量编码。如果需要对其进行编码,请重新训练模型映射表。one-hot编码示例使用SQL语句,生成训练数据。PAI-projectprojectxlib4-nameone_...

测试数据构建

在以往的方案中可能会选择以下几种方式:手工辛苦编写导入:效率低,且不适用于数据量场景。维护生成脚本:成本高,且不通用每次都得改,数据离散性不足。生产环境数据导出后写入测试环境:不安全,存在数据泄露风险。实际开发过程中可能...

模型的创建和详情

正则化类型主要用于解决训练过程中的过拟合问题最大迭代次数指定梯度下降的最大迭代次数收敛误差梯度下降的终止条件,即两次迭代之间对数似然率的差值数据集配置-字段仪表盘均值统计字段所有数值的平均值标准差总体各单位标准值与其平均数...

扫一扫简介

二维条形码(二维码)Gen0(普通二维码):Gen1(视觉码,将Gen0码与图片叠加):Gen2(在Gen1码基础上优化点阵的离散化,同时带隐藏码):Gen3(visualead自定义码):一维条形码(条码)EAN8:EAN13:EAN14:EAN18:EAN128:ISBN:ISSN:...

APPROX_COUNT_DISTINCT

非精确的COUNTDISTINCT计算能提升查询性能,尤其是对于column的离散值比较的情况,误差率平均可以控制在0.1%以内。该函数适用于对性能敏感并且可以接受误差的场景。同时,您也可以通过COUNTDISTINCT(column)的方式进行精确的...

雾霾天气预测

本文通过分析北京一年的真实天气数据,构建雾霾天气预测模型,从而挖掘对雾霾天气(指PM2.5)影响最大的污染物。数据集本实验为2016年全年(以小时为单位)的北京空气指标数据,具体字段如下。字段名类型描述timeSTRING日期,精确到天。...

Auto ML自动特征工程使用说明

在计算之前需要知道每个特征的空间的最大值,如下面这组数据:thalach的特征最大值为4oldpeak的特征最大值为3ca的特征最大值为4执行如下SQL语句获取最大值。selectmax(feature)fromtable;在本实验样例数据中,所有分桶完的特征的最大值均...

敏感信息检测

什么是敏感信息检测敏感信息检测功能,可以检测代码库中的敏感凭证和密钥,比如APIkeys等信息。集成在合并请求代码评审阶段,可以有效防止敏感信息意外提交。敏感信息问题等级分为:BLOCKER,CRITICAL,MAJORBLOCKER:通过规则扫描出来的可能...

异常处理

OSSPHPSDK异常(OssException)包括参数无效、文件不存在等错误。您可以通过getMessage方法获取错误信息。OssException的详细信息请参见GitHub。异常处理示例以下代码展示了创建一个已存在的存储空间时的异常处理,并打印出错误信息...

数据视图

参数设置连续特征离散区间数连续性特征等距离划分最大区间数。执行调优计算核心数计算的核心数,取值范围为正整数。每个核心内存每个核心的内存,取值范围为1MB~65536MB。PAI命令PAI-namefe_meta_runner-projectalgo_public-DinputTable=...

ListQualityResultsByRule

PageSizeInteger是10每页显示的条数,默认为10条,最大100条。ProjectNameString是autotest需要进行数据质量校验的引擎或者数据源名称。RuleIdInteger是152322134使用的校验规则ID。您可以使用该规则ID与分区表达式等信息进行联合查询。...

管理分区

LIST分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。分区表达式可以对数据...

ListQualityResultsByEntity

PageSizeInteger是10每页显示的条数,默认为10条,最大100条。ProjectNameString是autotest引擎或者数据源的名称。您可以从数据源配置中获取名称。StartDateString是2020-09-2000:00:00查询校验结果的开始时间,格式为yyyy-MM-ddHH:mm:ss。...

表分布定义

相同的值将始终列到同一个节点。选择唯一的分布键(例如PrimaryKey)将确保较均匀的数据分布。哈希分布是表的默认分布策略,如果创建表时未提供DISTRIBUTED子句,则将PRIMARYKEY或表的第一个合格列用作分布键。如果表中没有合格的列,则...

名词解释

名词说明维度维度是度量的环境,用来反映业务的一类属性,如时间、地域、性别、类别等等,是一组离散的值。度量即被聚合(观察)的统计值。是聚合运算的结果,如UV(用户数)、交易金额等经过统计的数值。数据集以二维表表现的数据集合。...

低成本RDS历史库

支持自适应压缩,针对数据的不同类型和特点,系统将自动选择混合的字典、前缀、Delta、编码等压缩算法,相比业界通用算法,整体压缩率提升10%~30%。云原生弹性Lindorm基于存储计算分离的架构,支持计算资源、存储资源的独立弹性伸缩,最大...
< 1 2 3 >
共有3页 跳转至: GO

新品推荐

你可能感兴趣

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折