大模型服务平台百炼 - Qwen3.5-Omni Realtime API 现已支持零样本音色克隆
新功能/规格
2026.04.21
只需上传 10-30 秒参考音频,即可将 AI 语音输出的音色克隆为目标声音。
适用客户
品牌专属声音、数字人配音、跨语言内容制作(出海企业/跨国客服/多语言教育)、AI 陪伴等 。
新增功能/规格
Qwen3.5-Omni 是 Qwen 最新一代全模态大模型,在 215 项第三方评测中拿下 SOTA,是全球首个原生全模态(Omni-Modal)AGI 模型。
Realtime API 现已支持零样本音色克隆(Zero-shot Voice Cloning)仅需提供 10~20 秒的音频,即可生成高度相似且听感自然的定制音色。
具备如下核心能力:
• 零样本克隆:上传音色,即时复用
• 跨语言迁移:中文声音→韩语/英语/日语输出,中→韩 WER 从 CosyVoice3 的 14.4 降至 4.03(72% 相对提升),12 个跨语言方向中 10 个达到最佳
• 自定义音色 WER 低至 0.785(中文),优于 ElevenLabs (3.80) 和 Gemini 2.5 Pro (1.89)
• 音色相似度 0.80(vs ElevenLabs 0.65)