阿里云文档 2025-06-30

实时语音识别

实时语音识别可以将音频流实时转换为文本,实现“边说边出文字”的效果。它适用于对麦克风语音进行实时识别,以及对本地音频文件进行实时转录。

阿里云文档 2025-06-30

Gummy实时语音识别、翻译WebSocket API

本文介绍如何通过WebSocket连接访问Gummy实时语音识别、翻译服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序,可以通过WebSocket连接与服务进行通信。WebSocket是一种支持全双工通信的网络协议。客户端...

阿里云文档 2025-06-07

Paraformer实时语音识别WebSocket API

本文介绍如何通过WebSocket连接访问实时语音识别服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发Paraformer实时语音识别应用程序,可以通过WebSocket连接与服务进行通信。WebSocket是一种支持全双工通信的网络协议。客户端和服务器通过...

阿里云文档 2025-05-27

CosyVoice大模型长文本语音合成WebSocket协议

本文介绍如何使用智能语音交互WebSocket协议使用Cosyvoice大模型的长文本语音合成服务。如果您不希望引入阿里云智能语音交互产品SDK,或者目前提供的SDK不能满足您的要求,可以基于本文描述自行开发代码访问阿里语音服务。

阿里云文档 2025-03-28

高并发场景下实时语音识别的性能优化

本文介绍在高并发场景下,如何通过DashScope Java SDK,高效调用Paraformer实时语音识别服务。

文章 2024-07-31 来自:开发者社区

通义语音大模型评测:迈向更自然、更智能的语音交互

一、技术架构 通义语音大模型基于先进的深度学习技术,采用了多层次的神经网络架构,结合了卷积神经网络(CNN)和循环神经网络(RNN)的优点。模型的设计重点在于以下几个方面: 数据处理:模型在训练过程中使用了大规模的语音数据集,确保了模型的泛化能力和准确性。数据集涵盖了多种...

文章 2024-02-02 来自:开发者社区

基于大模型的语音交互音响将会上市销售

近年来,AI技术的快速发展已经深刻改变了我们的生活,其中一项备受瞩目的成果便是AI智能音响。然而,过去这些产品被戏称为“人工智障”,受到争议。如今,随着大型语言模型(LLM)的引入,这一行业正在经历一场深刻的变革。 想象一下,一个能够深刻理解你需求、处理各种事务的智能机器人。相较于传统的智能音响产品,新一代音响将更智能、灵活,拥有更强大的语言理解与生成能力,从而实现更自然、复杂的对话。这种全新.....

基于大模型的语音交互音响将会上市销售

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐