法律声明及隐私权政策(历史版本)

说明 本文档旨在向用户提供可查看阿里云官网及App的《法律声明及隐私权政策》历史版本的渠道,请注意该版本法律文本已失效,现行有效版请参见阿里云官网及App的注册/登录页面或其他显著位置处。阿里云官网法律声明及隐私权政策:法律声明及...

文本摘要预测

语言 表示当前文本处理的语言:zh:中文。en:英文。是否从原文中拷贝文本 表示是否采用复制机制,取值如下:false(默认值)true 解码器最小长度 表示解码器最小长度,INT类型,默认值为12。模型输出长度大于该值。解码器最大长度 表示...

智能文创解决方案

150 语言 表示当前文本处理的语言:zh:中文 en:英文 zh 是否从原文中拷贝文本 表示是否采用复制机制,取值如下:false:(默认值),表示不拷贝。true:表示拷贝。false 解码器最小长度 表示解码器最小长度,模型输出长度大于该值。12 ...

产品简介

自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了...

数据标注

并且我们可以通过预处理规则配置:去除url、去除emoji、大写转小写、繁体转简体,帮助我们处理文本里面的无用信息。在这里我们选择分类类型支持单选分类和多选分类,多选分类:每个题目,可以选择多个答案;单元分类:每个题目,只能选择...

全文检索

人们通常选择数据库或数据仓库存储文本数据,但是将文本数据中有价值的信息提取出来并进行高效分析,往往需要涉及多个数据处理系统配合来实现,用户的使用门槛通常较高、维护成本较大。通常在使用数据仓库进行文本数据的加工和分析时,离不...

LiveTail

重要 如果您使用了Logtail插件处理文本日志或采集容器标准输出,则必须在Logtail插件配置中添加aggregators配置。更多信息,请参见 概述。背景信息 在线上运维的场景中,往往需要对日志队列中的日志进行实时监控,从最新的日志中提取出关键...

组件参考:所有组件汇总

自然语言处理 文本摘要预测 该组件旨在从冗长、重复的文本序列中抽取、精炼或总结出其中的要点信息,新闻标题摘要是文本摘要的一个特例。您可以使用文本摘要预测组件,调用指定预训练模型对新闻文本进行预测,从而生成新闻标题。文本分类...

联邦预处理

返回值定义 返回内容为文本预处理之后的联邦表和文本处理规则。处理后的特征名格式为 text_preprocess_,其中为序号。保存预处理规则信息 函数路径 fascia.biz.api.preprocessing.save_preprocessing_rule 函数定义 def save_preprocessing...

机器翻译通用版调用指南

设置此参数将对传入待翻译文本以及翻译后结果不做文本格式处理,统一按纯文本格式处理。Scene String 是 general 通用版本默认是:general SourceLanguage String 是 zh 原文语言 参考语言code SourceText String 是 你好 需要翻译的内容 ...

TranslateGeneral-机器翻译通用版调用

设置此参数将对传入待翻译文本以及翻译后结果不做文本格式处理,统一按纯文本格式处理。text SourceLanguage string 是 原文语言,参考语言 code zh TargetLanguage string 是 译文语言,参考语言 code en SourceText string 是 需要翻译的...

CreateAsyncTranslate-创建文本异步翻译任务

设置此参数将对传入待翻译文本以及翻译后结果不做文本格式处理,统一按纯文本格式处理。text ApiType string 是 版本类型,必须选择一个版本 通用版本:translate_standard 专业版本:translate_ecommerce translate_standard 返回参数 ...

TranslateECommerce-机器翻译电商版调用

设置此参数将对传入待翻译文本以及翻译后结果不做文本格式处理,统一按纯文本格式处理。text TargetLanguage string 是 目标语种,支持的 语种参考。zh SourceLanguage string 是 原文语言 参考语言 code en SourceText string 是 待翻译...

机器翻译专业版调用指南

设置此参数将对传入待翻译文本以及翻译后结果不做文本格式处理,统一按纯文本格式处理。Scene String 是 title 场景可选取值:商品标题(title),商品描述(description),商品沟通(communication),医疗(medical),社交(social),...

Translate-机器翻译专业版调用

设置此参数将对传入待翻译文本以及翻译后结果不做文本格式处理,统一按纯文本格式处理。text TargetLanguage string 是 译文语言,参考语言 code en SourceLanguage string 是 原文语言,参考语言 code zh SourceText string 是 待翻译内容...

GetBatchTranslate-机器批量翻译调用指南

设置此参数将对传入待翻译文本以及翻译后结果不做文本格式处理,统一按纯文本格式处理。text TargetLanguage string 是 译文语言 参考语言 code zh SourceLanguage string 是 原文语言 参考语言 code en Scene string 是 专业版本支持的...

中心词提取(英文)

请求参数 名称 类型 是否必选 示例值 描述 Action String 是 GetKeywordEnEcom 系统规定参数,取值:GetKeywordEnEcom ServiceCode String 是 alinlp 固定值,只支持alinlp Text String 是 请输入一段英文电商文本处理文本,一般为...

机器批量翻译调用指南

设置此参数将对传入待翻译文本以及翻译后结果不做文本格式处理,统一按纯文本格式处理。TargetLanguage String 是 zh 译文语言 参考语言code SourceLanguage String 是 en 原文语言 参考语言code Scene String 是 general 专业版本支持的...

操作指南

NLP自然语言处理 基础文本服务 电商行业能力 对话智能服务 通用行业能力 医疗文本分析 NLP自学习平台 实体抽取 文本分类 文本关系抽取 双句文本分类 商品评价解析 合同要素抽取 文本匹配 对话文本分类 司法裁判文书(事实认定)合同抽取 ...

快速开始

前言 通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。模型中文名 模型英文名 向量维度 单次请求文本最大行数 单行最大...

快速开始

前言 通用文本向量,是通义实验室基于LLM底座的多语言文本统一向量模型,面向全球多个主流语种,提供高水准的向量服务,帮助开发者将文本数据快速转换为高质量的向量数据。模型中文名 模型英文名 向量维度 单次请求文本最大行数 单行最大...

中心词提取(中文)

否则返回1.0版本的算法结果 Text String 是 请输入一段中文电商文本,长度不超过128 待处理文本,一般为句子,长度在128个字以内 返回数据 名称 类型 示例值 描述 tracerId String 0.0.0.0-0-140265981481776-1660903150673-0000000010 ...

标签层(v3.x版本)

文本溢出:设置标签文字的文本溢出处理方式,包括 切断、换行 和 省略号。默认为 省略号。主标题:设置标签内主标题的样式,单击 主标题 左侧的 图标,可控制 主标题 样式的显隐。参数 说明 标题字段 设置标签的标题字段内容,需要与地理...

标签层(v3.x版本)

文本溢出:设置标签文字的文本溢出处理方式,包括 切断、换行 和 省略号。默认为 省略号。主标题:设置标签内主标题的样式,单击 主标题 左侧的 图标,可控制 主标题 样式的显隐。参数 说明 标题字段 设置标签的标题字段内容,需要与地理...

产品简介

产品简介 阿里巴巴通义实验室千寻搜索算法,基于达摩院长期积累的自然语言处理技术,专注企业统一搜索场景,提供精准的多源异构搜索,以PaaS服务形式提供离线数据处理和搜索服务API。同时支持公有云、专有云、基于云原生的基础架构下混合云...

API详情

opennlu-v1 input.task String Body 否 任务类型,可选项是 extraction classification,默认是 extraction input.sentence String Body 是 用户输入的需要处理文本内容,支持中英文。(input最长限制1024个tokens,为input所有字段的...

概述

f 正如以上例子所建议的,一个 tsquery 并不只是一个未经处理文本,顶多一个 tsvector 是这样。一个 tsquery 包含搜索术语,它们必须是已经正规化的词位,并且可以使用 AND、OR、NOT 以及 FOLLOWED BY 操作符结合多个术语。有几个函数 to...

API详情

opennlu-v1 input.task String Body 否 任务类型,可选项是 extraction classification,默认是 extraction input.sentence String Body 是 用户输入的需要处理文本内容,支持中英文。(input最长限制1024个tokens,为input所有字段的...

数据安全

text String 是 要处理文本,加密为原始文本,解密为 Base64 编码格式文本。key String 是 RSA 密钥,加密使用公钥,解密使用私钥。success Function 否 调用成功的回调函数。fail Function 否 调用失败的回调函数。complete Function 否...

数据预处理

对于文本数据而言,通常文本数据里面会含有很多跟任务无关的噪音,这时应该进行文本的预处理。在NLP自学习平台内置了一些预处理规则,如果您觉得有必要进行预处理,可以选择这些规则。我们内置的规则包括:去除 URL 链接;去除 emoji 表情...

LLM-文本标准化

LLM-文本标准化组件主要用于大语言模型(LLM)的文本数据预处理工作,可以将文本Unicode标准化以及繁体转简体。使用限制 仅支持MaxCompute计算引擎。算法简介 LLM-文本标准化组件支持以下功能:将Unicode文本标准化,使用NFKC的方式标准化...

LLM-MD5去重

LLM-MD5去重组件主要用于大语言模型(LLM)的文本数据预处理工作,可以计算文本的MD5哈希值,根据哈希值对文本进行去重。使用限制 仅支持MaxCompute计算引擎。算法简介 对所有输入的文本数据使用 hashlib.md5 哈希算法计算哈希值。哈希值...

LLM-Copyright信息移除

以上步骤均检测第一次匹配到的注释片段,即默认检测文本的头部,剩余部分不做处理。例如:处理前:处理后:可视化配置参数 您可以在Designer中,通过可视化的方式配置组件参数。页签 参数 是否必选 描述 默认值 字段设置 选择目标处理列 是...

LLM-文章内句子去重

LLM-文章内句子去重组件主要用于大语言模型(LLM)的文本数据预处理工作,对文章内的语句进行去重。使用限制 仅支持MaxCompute计算引擎。算法简介 首先根据换行符将文本进行拆分,然后对拆分后的每行文本使用。……,\\?\\?等标点符号进行...

LLM-长度过滤

LLM-长度过滤组件主要用于大语言模型(LLM)的文本数据预处理工作,根据文本长度、平均长度、最大行长度等过滤样本。使用限制 仅支持MaxCompute计算引擎。可视化配置参数 您可以在Designer中,通过可视化的方式配置组件参数。页签 参数 ...

LLM-特殊字符占比过滤

LLM-特殊字符占比过滤组件主要用于大语言模型(LLM)的文本数据预处理工作,根据特殊字符占比过滤样本,保留特殊字符个数占文本总长度比例在指定范围内的样本。使用限制 仅支持MaxCompute计算引擎。算法简介 遍历文本中的每个字符,并统计...

LLM-删除LaTeX参考文献

LLM-删除LaTeX参考文献组件主要用于大语言模型(LLM)的文本数据预处理工作,适用于TEX文档格式数据。主要功能是删除LaTeX格式文本末尾的参考文献。支持的 计算资源 MaxCompute 算法说明 定义LaTeX格式文本参考文献的正则表达式为:r'(\\...

LLM-删除LaTeX注释行

LLM-删除LaTeX注释行组件主要用于大语言模型(LLM)的文本数据预处理工作,适用于TEX文档格式数据。主要功能是删除LaTeX格式文本中的注释行以及行内注释。支持的 计算资源 MaxCompute 算法说明 定义LaTeX格式文本注释行的正则表达式如下:...

LLM-文章相似度去重

LLM-文章相似度去重组件主要用于大语言模型(LLM)的文本数据预处理工作,使用SimHash算法计算文本间的相似度,实现文本去重。使用限制 仅支持MaxCompute计算引擎。可视化配置参数 您可以在Designer中,通过可视化的方式配置组件参数。页签...

基于Tair Vector实现图文多模态检索

1,keepdim=True)return image_features.cpu().numpy()[0]#[1,1024]def upsert_text(text):"""您需要输入需存储的文本,该方法会调用extract_text_features方法(通过CLIP模型对文本进行预处理,并返回文本的特征信息),并行将返回的特征...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
媒体处理 自然语言处理 对象存储 视频点播 客服工作台 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用