大模型服务平台百炼 - Qwen3.5-Omni Realtime API 现已支持零样本音色克隆

新功能/规格
2026.04.21

只需上传 10-30 秒参考音频,即可将 AI 语音输出的音色克隆为目标声音。

适用客户

品牌专属声音、数字人配音、跨语言内容制作(出海企业/跨国客服/多语言教育)、AI 陪伴等 。

新增功能/规格

Qwen3.5-Omni 是 Qwen 最新一代全模态大模型,在 215 项第三方评测中拿下 SOTA,是全球首个原生全模态(Omni-Modal)AGI 模型。 Realtime API 现已支持零样本音色克隆(Zero-shot Voice Cloning)仅需提供 10~20 秒的音频,即可生成高度相似且听感自然的定制音色。   具备如下核心能力: • 零样本克隆:上传音色,即时复用 • 跨语言迁移:中文声音→韩语/英语/日语输出,中→韩 WER 从 CosyVoice3 的 14.4 降至 4.03(72% 相对提升),12 个跨语言方向中 10 个达到最佳 • 自定义音色 WER 低至 0.785(中文),优于 ElevenLabs (3.80) 和 Gemini 2.5 Pro (1.89) • 音色相似度 0.80(vs ElevenLabs 0.65)