阿里云文档 2025-12-05

通义万相通用图像编辑wan2.5API参考

通义万相-通用图像编辑wan2.5模型仅需文本指令,即可基于单张或多张参考图像,实现主体一致的图像编辑、多图融合等能力。

阿里云文档 2025-11-26

音频理解,通义千问3-Omni-Captioner

Qwen3-Omni-Captioner是以通义千问3-Omni为基座的开源模型,无需任何提示,自动为复杂语音、环境声、音乐、影视声效等生成精准、全面的描述,能识别说话人的情绪、音乐元素(如风格、乐器)、敏感信息等,适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。

阿里云文档 2025-11-20

多语言音视频流实时翻译-通义千问-大模型服务平台百炼-阿里云

qwen3-livetranslate-flash-realtime 是视觉增强型实时翻译模型,支持 18 种语言(中、英、俄、法等)互译,可同时处理音频与图像输入,适用于实时视频流或本地视频文件,利用视觉上下文信息提升翻译准确性,并实时输出高质量的翻译文本与音频。

阿里云文档 2025-10-23

错误码-通义深度搜索

深度搜索应用调用过程中的错误码和错误信息可参考本文说明

阿里云文档 2025-10-15

通义晓蜜产品开通需主账号授权子账号权限,通过应用广场路径完成免费开通及付费类型选择。

本文档介绍了如何开通通义晓蜜CCAI-对话分析AIO产品的步骤

文章 2025-07-17 来自:开发者社区

阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025

近日,计算机视觉国际大会ICCV2025公布论文评选结果,阿里云自主研发的最新技术成果《AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Vision-Language Model Inference》被大会录用。该研究聚焦视觉语言模型(VLMs)的高效推理难题,提出了一种新颖的AirCac....

阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
文章 2025-07-11 来自:开发者社区

Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!

01.引言 6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。 Gemma是来自Google的一系列轻量级、最先进的开放模型, 它们基于创建Gemini模型所用的相同研究和技术构建。 Gemma 3n模型专为在资源有限...

Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
文章 2025-06-04 来自:开发者社区

小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!

01.引言 今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。   MiMo-VL-7B的模型架构为:   ① 保持细粒度视觉细节的原生分辨率ViT编码器 ② 用于高效跨模态对齐的MLP projector ③ 专为复杂推理任务优化的MiMo-7B语言模型 ...

小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
文章 2025-02-05 来自:开发者社区

MustDrop:多阶段去除冗余视觉token,提升多模态大模型推理效率

论文标题: Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model 单位: 本文由国防科技大学、合肥工业大学、上海交通大学共同完成。 论文链接: https://arxiv.org/pdf/2411.10803 模型链接: ht...

MustDrop:多阶段去除冗余视觉token,提升多模态大模型推理效率
文章 2024-10-29 来自:开发者社区

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

在人工智能领域,多模态大模型(MLLMs)的发展一直备受关注。这些模型能够同时处理文本、图像等多种类型的数据,在视频理解、高分辨率图像分析以及多模态智能体等领域具有广泛的应用前景。然而,随着模型规模的不断扩大,如何在保持性能的同时提高计算效率成为了一个亟待解决的问题。 近日,一篇名为《LongLLa...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

通义大模型

阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi

+关注