文章 2022-06-13 来自:开发者社区

语音识别(ASR)系列之三:CTC、RNN-T模型

上一篇系列之二介绍了早期的混合模型,底层使用GMM或者DNN计算帧对应的音素概率,上层使用HMM寻找最优的音素序列,得到最终的文字序列。该模型的缺点:需要对帧级别打标签、建模,这对语音数据来说工作量巨大,并且标签不一定准确,特别是两个音的边界部分;两个或者多个模型混合增加了模型复杂度,使用不太方便。\\于是后来新的模型思路转向从语音直接预测文字,即端到端模型。今天我们来看看具有里程碑意义的CTC....

语音识别(ASR)系列之三:CTC、RNN-T模型
文章 2022-02-17 来自:开发者社区

语音识别(ASR)基础介绍第四篇——当今流行做法与CTC

本篇开始,就进入到了asr当前的流行做法。 这里单独提到了CTC算法。  这个算法对当前asr使用deep learning的方法有重大影响。 总体感觉,写到本篇,工作量反而变得很小。因为进入deep learning时代后,神经网络模型基本都是那么几种,已经不再需要挨个详细介绍。而且看图就能理解的很明白。 所以本篇后半部分基本就是贴图了。。:D 一、CTC 在CTC之前,训练语料要配合...

语音识别(ASR)基础介绍第四篇——当今流行做法与CTC

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐