阿里云文档 2025-12-04

文本生成

文本生成模型能够基于输入的提示词(Prompt)创作出逻辑清晰、连贯的文本。

阿里云文档 2025-12-03

向量化

向量化模型可将文本、图像、视频等数据转换为数值向量,用于语义搜索、推荐、聚类、分类、异常检测等下游任务。

阿里云文档 2025-11-10

提供文本、图片、文档、网页等场景下的多语言机器翻译服务

提供基于通义翻译大模型的编排和调试,在支持文本、图片、网页等内容多语言翻译的基础上,提供术语自适应干预、敏感词定义、译文格式转换等定制能力,让译文更符合不同业务场景的具体需求。

阿里云文档 2025-11-05

通义千问qwen-image和通义万相wan模型文生图使用方式

通过文生图API,您可以基于文本描述创造出全新的图像。阿里云百炼提供两大系列模型:

文章 2025-10-03 来自:开发者社区

88_多模态提示:图像与文本融合

引言 在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人...

88_多模态提示:图像与文本融合
阿里云文档 2025-05-27

CosyVoice大模型长文本语音合成WebSocket协议

本文介绍如何使用智能语音交互WebSocket协议使用Cosyvoice大模型的长文本语音合成服务。如果您不希望引入阿里云智能语音交互产品SDK,或者目前提供的SDK不能满足您的要求,可以基于本文描述自行开发代码访问阿里语音服务。

文章 2024-12-17 来自:开发者社区

LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 快速阅读 多模态处理:LatentLM能同时处理离散和连续数据,如文本、图像、音频等。 自回归生成:基于next-token diffusion技术,模型自回归生成连续数据的潜在向量。 ...

LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
文章 2023-06-21 来自:开发者社区

多模态特征融合:图像、语音、文本如何转为特征向量并进行分类

前言学习多模态的话题可以从深度学习的分类任务出发,因为分类任务是最直观的可以观察到不同模态的数据,通过输入数据到模型中,我们可以看到模型是如何学习到数据的特征向量的,同时分类任务的模型也是实现更复杂任务模型的基础。从分类任务中可以了解到图像、文本、语音在模型的特征向量是什么。以飞浆的多模态视频分类模型为例,这个模型基于真实的短视频业务数据,融合文本、视频图像、音频三种模态进行视频多模标签分类,相....

多模态特征融合:图像、语音、文本如何转为特征向量并进行分类
文章 2023-05-14 来自:开发者社区

LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA

人类似乎对不同的学习模式有着相似的认知,机器也应该如此! 自监督学习能在各种任务中学习到分层特征,并以现实生活中可使用的海量数据作为资源,因此是走向更通用人工智能的一种途径,也是深度学习三巨头之一、图灵奖得主 Yann LeCun 一直推崇的研究方向。LeCun 认为:相比于强化学习,自监督学习(SSL)可以产生大量反馈,能够预测其输入的任何一部分(如预测视频的未来画面),从而具有广泛的...

LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

通义大模型

阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi

+关注