乐读窝

深度学习

乐读窝 > 文学理论 > 深度学习

12.3 语音识别

书籍名:《深度学习》    作者:伊恩.古德费洛



语音识别任务是将一段包括了自然语言发音的声学信号投影到对应说话人的词序列上。令X=(x(1),x(2),…,x(T))表示语音的输入向量(传统做法以20ms为一帧分割信号)。许多语音识别的系统通过特殊的手工设计方法预处理输入信号,从而提取特征,但是某些深度学习系统(Jaitly  and  Hinton,2011)直接从原始输入中学习特征。令y=(y1,y2,…,yN)表示目标的输出序列(通常是一个词或者字符的序列)。自动语音识别(automatic  speech  recognition,ASR)任务指的是构造一个函数,使得它能够在给定声学序列X的情况下计算最有可能的语言序列y:

其中P*是给定输入值X时对应目标y的真实条件分布。

从20世纪80年代直到2009~2012年,最先进的语音识别系统是隐马尔可夫模型(hidden  markov  model,HMM)和高斯混合模型(gaussian  mixture  model,GMM)的结合。GMM对声学特征和音素(phoneme)之间的关系建模(Bahl  et  al.,1987),HMM对音素序列建模。GMM-HMM模型将语音信号视作由如下过程生成:首先,一个HMM生成了一个音素的序列以及离散的子音素状态(比如每一个音素的开始、中间、结尾),然后GMM把每一个离散的状态转化为一个简短的声音信号。尽管直到最近GMM-HMM一直在ASR中占据主导地位,语音识别仍然是神经网络所成功应用的第一个领域。从20世纪80年代末期到90年代初期,大量语音识别系统使用了神经网络(Bourlard  and  Wellekens,1989;Waibel  et  al.,1989;Robinson  and  Fallside,1991;Bengio  et  al.,1991,1992;Konig  et  al.,1996)。当时,基于神经网络的ASR的表现和GMM-HMM系统的表现差不多。比如说,Robinson  and  Fallside(1991)在TIMIT数据集(Garofolo  et  al.,1993)(有39个区分的音素)上达到了26%的音素错误率,这个结果优于或者说是可以与基于HMM的结果相比。从那时起,TIMIT成为音素识别的一个基准数据集,在语音识别中的作用就和MNIST在对象识别中的作用差不多。然而,由于语音识别软件系统中复杂的工程因素以及在基于GMM-HMM的系统中已经付出的巨大努力,工业界并没有迫切转向神经网络的需求。结果,直到21世纪00年代末期,学术界和工业界的研究者们更多的是用神经网络为GMM-HMM系统学习一些额外的特征。

之后,随着更大更深的模型以及更大的数据集的出现,通过使用神经网络代替GMM来实现将声学特征转化为音素(或者子音素状态)的过程可以大大地提高识别的精度。从2009年开始,语音识别的研究者们将一种无监督学习的深度学习方法应用于语音识别。这种深度学习方法基于训练一个被称作是受限玻尔兹曼机的无向概率模型,从而对输入数据建模。受限玻尔兹曼机将会在第3部分中描述。为了完成语音识别任务,无监督的预训练被用来构造一个深度前馈网络,这个神经网络每一层都是通过训练受限玻尔兹曼机来初始化的。这些网络的输入是从一个固定规格的输入窗(以当前帧为中心)的谱声学表示抽取,预测了当前帧所对应的HMM状态的条件概率。训练一个这样的神经网络能够可以显著提高在TIMIT数据集上的识别率(Mohamed  et  al.,2009,2012a),并将音素级别的错误率从大约26%降到了20.7%。关于这个模型成功原因的详细分析可以参考Mohamed  et  al.(2012b)。对于基本的电话识别工作流程的一个扩展工作是添加说话人自适应相关特征(Mohamed  et  al.,2011)的方法,这可以进一步地降低错误率。紧接着的工作则将结构从音素识别(TIMIT所主要关注的)转向了大规模词汇语音识别(Dahl  et  al.,2012),这不仅包含了识别音素,还包括了识别大规模词汇的序列。语音识别上的深度网络从最初的使用受限玻尔兹曼机进行预训练发展到了使用诸如整流线性单元和Dropout这样的技术(Zeiler  et  al.,2013;Dahl  et  al.,2013)。从那时开始,工业界的几个语音研究组开始寻求与学术圈的研究者之间的合作。Hinton  et  al.(2012a)描述了这些合作所带来的突破性进展,这些技术现在被广泛应用在产品中,比如移动手机端。

随后,当研究组使用了越来越大的带标签的数据集,加入了各种初始化、训练方法以及调试深度神经网络的结构之后,他们发现这种无监督的预训练方式是没有必要的,或者说不能带来任何显著的改进。

用语音识别中词错误率来衡量,在语音识别性能上的这些突破是史无前例的(大约30%的提高)。在这之前的长达十年左右的时间内,尽管数据集的规模是随时间增长的(见Deng  and  Yu(2014)的图2.4),但基于GMM-HMM的系统的传统技术已经停滞不前了。这也导致了语音识别领域快速地转向深度学习的研究。在大约两年的时间内,工业界大多数的语音识别产品都包含了深度神经网络,这种成功也激发了ASR领域对深度学习算法和结构的新一波研究浪潮,并且影响至今。

其中的一个创新点是卷积网络的应用(Sainath  et  al.,2013)。卷积网络在时域与频域上复用了权重,改进了之前的仅在时域上使用重复权值的时延神经网络。这种新的二维卷积模型并不是将输入的频谱当作一个长的向量,而是当成一个图像,其中一个轴对应着时间,另一个轴对应的是谱分量的频率。

完全抛弃HMM并转向研究端到端的深度学习语音识别系统是至今仍然活跃的另一个重要推动。这个领域第一个主要突破是Graves  et  al.(2013),他训练了一个深度的长短期记忆循环神经网络(见第10.10节),使用了帧-音素排列的MAP推断,就像LeCun  et  al.(1998c)以及CTC框架(Graves  et  al.,2006;Graves,2012)中一样。一个深度循环神经网络(Graves  et  al.,2013)每个时间步的各层都有状态变量,两种展开图的方式导致两种不同深度:一种是普通的根据层的堆叠衡量的深度,另一种是根据时间展开衡量的深度。这个工作把TIMIT数据集上音素的错误率记录降到了新低17.7%。关于应用于其他领域的深度循环神经网络的变种可以参考Pascanu  et  al.(2014a);Chung  et  al.(2014)。

另一个端到端深度学习语音识别方向的最新方法是,让系统学习如何利用语音(phonetic)层级的信息“排列”声学(acoustic)层级的信息(Chorowski  et  al.,2014;Lu  et  al.,2015)。