作为一款多任务模型,它不仅可以执行多语言语音识别,还可以执行语音翻译和语言识别等任务。对于一段语音,CTC最后输出的是尖峰的序列,尖峰的位置对应建模单元的Label,其他位置都是Blank。随着深度学习的发展,语音识别由DNN-HMM时代发展到基于深度学习的“端到端”时代,这个时代的主要特征是代价函数发生了变化,但基本的模型结构并没有太大变化。随着端到端技术的突破,深度学习模型不再需要对音素内部状态的变化进行描述,而是将语音识别的所有模块统一成神经网络模型,使语音识别朝着更简单、更高效、更准确的方向发展。