文章 2024-10-08 来自:开发者社区

LLaMA-Omni 低延迟高质量语音交互,开源!

引言 随着GPT-4o的发布,在语音界面的Voice-Chat越来越受到大家的关注,对于低延迟,高准确性模型的speech-to-speech的需求日益增长,来自中科院计算所NLP组的LLaMA-Omni 有效的解决了这样的需求,该模型整合了预训练的语音编码器、语音adapter、LLM和流式语音解码器,并消除了对文本输出后再语音转录的需求,能够直接从语音指令中同时生成文本和语音响应。 ...

LLaMA-Omni 低延迟高质量语音交互,开源!
文章 2024-07-04 来自:开发者社区

语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg

视频资料链接: 免费开源的语音转文本软件Whisper的本地搭建详细教程_哔哩哔哩_bilibili 博主的博客地址: https://blog.lukeewin.top github中的Whisper链接地址: ...

语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
文章 2024-06-27 来自:开发者社区

GigaSpeech 2:三万小时东南亚多语种语音识别开源数据集发布

“Giga”一词源于“gigantic”,互联网上具有海量音频资源,但语音质量良莠不齐,高质量音频文本对数据十分稀缺且标注成本高昂,特别是在小语种领域。GigaSpeech 是一个非常成功的英文开源数据集,以 YouTube 和 Podcast 为音频来源,提供了上万小时的高质量文本标注语音数据集,获得了广泛关注和应用。针对多语言领域仍存在的语音识别性能较差、可用高质量标注数据缺乏等问题,我们提....

GigaSpeech 2:三万小时东南亚多语种语音识别开源数据集发布
问答 2024-06-24 来自:开发者社区

FunASR是由哪个团队开源的语音识别框架?

FunASR是由哪个团队开源的语音识别框架?

问答 2024-06-24 来自:开发者社区

FunASR是由哪个机构开源的语音识别框架?

FunASR是由哪个机构开源的语音识别框架?

文章 2024-02-29 来自:开发者社区

Modelscope-FunASR是一个开源的语音识别框架

Modelscope-FunASR是一个开源的语音识别框架,它支持多种模型的训练和推理。要使用其他模型,你可以按照以下步骤操作: 选择一个模型:首先,你需要选择一个你想要使用的模型。这个模型应该是一个语音识别模型,并且应该支持PyTorch或者TensorFlow框架。你可以从各种开源库中找到这样的模型ÿ...

问答 2024-02-01 来自:开发者社区

modelscope-funasr语音识别,有哪些开源的数据集吗?

modelscope-funasr语音识别,有哪些开源的数据集吗?

文章 2023-06-17 来自:开发者社区

直接开源!达摩院公布下一代工业级语音识别模型

今天,阿里巴巴达摩院发布新一代语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。目前,该模型于魔搭社区面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。01 下一代语音识别模型:从自回归到非自回归的探索语音作为最自然的交流途径, 一直是人机交互重要研究领域。当前....

直接开源!达摩院公布下一代工业级语音识别模型
文章 2023-05-13 来自:开发者社区

开源|业界首个应用落地的非自回归端到端语音识别模型,推理效率可提升10倍

近期,阿里巴巴达摩院发布新一代语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。目前,该模型于魔搭社区面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。01下一代语音识别模型:从自回归到非自回归的探索语音作为最自然的交流途径, 一直是人机交互重要研究领域。当前语....

开源|业界首个应用落地的非自回归端到端语音识别模型,推理效率可提升10倍
问答 2023-04-14 来自:开发者社区

直接开源!下一代“杀手锏”语音识别模型

新一代语音识别模型Paraformer,为业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。目前,该模型于魔搭平台面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。 语音作为最自然的交流途径, 一直是人机交互重要研究领域。当前语音识别基础框架已从最初复杂的混合语音识别系统,演变为高效便捷的端...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐