阿里云文档 2025-10-31

通义千问实时音视频翻译API客户端事件-大模型服务平台百炼-阿里云

本文介绍 qwen3-livetranslate-flash-realtime API 的客户端事件。

阿里云文档 2025-10-30

Fun-ASR Java SDK提供同步和流式语音识别接口

本文介绍Fun-ASR实时语音识别Java SDK的参数和接口细节。

阿里云文档 2025-10-30

Fun-ASR-RealTime Python SDK

本文介绍Fun-ASR实时语音识别Python SDK的参数和接口细节。

阿里云文档 2025-10-30

通过WebSocket调用通义千问实现实时音视频翻译-大模型服务平台百炼-阿里云

qwen3-livetranslate-flash-realtime 是通义千问推出的一款视觉增强型实时翻译模型。它能够同时处理流式的音频与图像输入(例如来自视频流),利用视觉上下文信息提升翻译的准确性,并实时输出高质量的翻译文本与音频。

阿里云文档 2025-10-28

通义万相通用图像编辑wan2.5API参考

通义万相-通用图像编辑wan2.5模型支持输入文本、单图或多图实现基于主体一致性的图像编辑、多图融合创作、组图生成等能力。

文章 2025-10-03 来自:开发者社区

38_多模态模型:CLIP的视觉-语言对齐_深度解析

引言 想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向...

38_多模态模型:CLIP的视觉-语言对齐_深度解析
文章 2025-04-18 来自:开发者社区

多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 「多模态模型卷王诞生!上海AI Lab开源78B参数巨...

多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

通义大模型更多模型相关

产品推荐

通义大模型

阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi

+关注