腾讯AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展

1.在过去的几年里,自动语音识别取得了很大的进步 这些进步已经使人工智能系统能够跨越许多现实世界应用所需的门槛,从而产生了谷歌现在、微软小娜和亚马逊阿列克谢等服务。 许多这些成就都是由深度学习技术推动的。

在本文中,我们调查了过去两年中的新进展,重点放在声学模型上 我们讨论了每个有趣的研究结果的动机和核心思想。 具体来说,在第二节中,我们解释了使用深度循环神经网络(RNN)和深度卷积神经网络(美国有线电视新闻网)的改进的深学习隐马尔可夫模型混合声学模型 与前馈深层神经网络(DNN)相比,这些混合模型可以更好地利用上下文信息,从而获得新的和当前最优的识别精度。

在第3节中,我们描述了一个以端到端方式设计和优化的声学模型,其中几乎没有或没有不可滤出的成分。 首先,我们讨论了直接使用音频波形作为输入特征的模型。其特征表现层是自动学习的,而不是手动设计的。 然后我们描述了连接主义时间分类的标准优化模型,它允许序列到序列的直接映射。 然后,我们分析了基于注意机制的序列对序列翻译模型。

在第4节中,我们讨论了可以提高鲁棒性的技术,重点讨论了自适应技术、语音增强和分离技术以及鲁棒性训练技术。 在第5节中,我们描述了一个声学模型,该模型通过师生培训和量化来支持高效解码和覆盖帧跳过以及模型压缩。 在第6节中,我们提出了需要解决的核心问题以及解决这些问题的未来方向。

2。使用可变长度上下文信息的声学模型

DL/HMM混合模型是第一个成功的人工智能深度学习框架,并且仍然是该行业中使用的主导模型 几年前,大多数混合动力系统都是基于DNN

然而,由于不同的音素和语速,上下文信息的最佳长度也可能不同 这表明,使用固定长度的上下文窗口,如在DNN/隐马尔可夫模型混合系统中,可能不是利用语音信息的最佳选择。 近年来,人们提出了一些能够更有效地利用可变长度上下文信息的新模型。 两个最重要的模型使用深度RNN和有线电视新闻网

循环神经网络(RNN)

前馈DNN只考虑固定长度帧滑动窗口中的信息,因此它不能利用语音信号中的长距离相关性 然而,RNN可以在它自己的内部状态下编码序列历史,因此它可以基于直到当前帧观察到的所有语音特征来预测音素。 不幸的是,纯粹的RNN很难训练

为了克服这些问题,研究人员开发了长期和短期记忆(LSTM)RNN LSTM-RNN使用输入门、输出门和遗忘门来控制信息流,使得梯度可以在相对长的时间跨度内稳定地传播。

为了获得更好的建模能力,一种流行的方法是堆叠LSTM层 然而,LSTM-RNN的香草LSTM层太多,很难训练,如果网络太深,就会出现梯度消失的问题。 这个问题可以通过使用LSTM高速公路或Resilientlstm来解决。

在LSTM高速公路上,相邻层的存储单元通过门控直接链接连接在一起,这为层与层之间的信息提供了更直接且不衰减的流动路径

residual LSTM使用LSTM层之间的快捷连接,因此也提供了一种缓解梯度消失问题的方法

还有一个二维时频LSTM(2D,时频LSTM),它可以在时间轴和频率轴上联合扫描语音输入,以模拟频谱-时间扭曲,然后使用其输出的激活作为传统时间LSTM的输入。 这种时频联合建模可以为上层时间LSTM提供更好的归一化特征。

grid LSTM(Grid LSTM)是一个通用的LSTM,它将LSTM存储单元排列成多维网格,这可以被视为使用LSTM进行时间、频谱和空的统一方法

尽管双向LSTM(BLSTM)通过使用过去和未来的上下文信息可以比单向LSTM表现得更好,但是它们不适合实时系统,因为它们需要在观察整个话语之后被识别。 为此,人们提出了延迟控制的双向传输模式和行卷积双向传输模式,在单向LSTM和双向传输模式之间建立了桥梁。 在这些模型中,前锋LSTM保持不变 但是反向LSTM将被替换或者被具有最多n帧前瞻的反向LSTM(如在LC-BLSTM的情况下)或者被在n帧前瞻中集成信息的线卷积所替换

卷积神经网络(CNN)

卷积神经网络(CNN)是另一种能够有效利用变长上下文信息的模型。其核心是卷积运算(或卷积层)

时延神经网络/TDNN是第一个使用多个有线电视新闻网层进行人工呼吸的模型 该模型在时间轴和频率轴上都应用卷积运算。

随着DNN在LVCSR中的成功应用,有线电视新闻网在数字语言/隐马尔可夫混合模型架构下被重新引入 由于该混合模型中的隐马尔可夫模型已经具有很强的处理人工语音识别中变长语音问题的能力,因此有线电视新闻网的重新引入最初只是为了解决频率轴的可变性。 目标是提高鲁棒性,以应对不同扬声器之间的通道长度差异。 这些早期的模型只使用了一两个有线电视新闻网层,这些层与其他完全相连的DNN层堆叠在一起

后来,其他RNN层如LSTM也被整合到模型中,从而形成了所谓的有线电视新闻网-LSTM-DNN(CLDNN)和有线电视新闻网-DNN-LSTM(CDL)架构

研究人员很快意识到处理可变长度的话语不同于使用可变长度的上下文信息。 TDNN沿着频率轴和时间轴同时卷积,因此能够利用可变长度的上下文信息 基于此,该模型受到了新的关注,但这一次是在DL/HMM混合架构下,并且存在一些变体,如行卷积和前馈顺序存储网络/FSMN等。

最近,主要受图像处理成功的推动,研究人员提出并评估了各种深度的有线电视新闻网结构来进行人工呼吸。 前提是光谱图可以被视为具有特定模式的图像,有经验的人可以看到其中所说的话。 在深度有线电视新闻网中,每一个较高层都是较低层窗口的非线性变换的加权和,从而覆盖更长的上下文并运行更抽象的模式。 与长时延的BLSTM不同,深度有线电视新闻网的时延有限,如果计算成本可以控制,更适合实时系统。

为了加快计算速度,我们可以将整个话语视为单个输入图像,这样就可以重用中间的计算结果。 此外,如果深度有线电视新闻网的设计能够保证每一层的步幅足够长以覆盖整个内核,例如基于分层上下文扩展和注意力/位置的有线电视新闻网(CNN)和扩展有线电视新闻网(expansed CNN),则只需要更少的层数就可以利用更长范围的信息,并且可以显着降低计算成本。

3。使用端到端优化声学模型

在DNN/隐马尔可夫模型混合模型中,DNN分量和隐马尔可夫模型分量通常被分别优化 然而,语音识别是一个序列识别问题 如果模型中的所有组件都被联合优化,就有可能获得更好的识别精度。 如果模型可以移除所有手动设计的组件(如基本特征表示和字典设计),结果会更好。

自动学习音频特征表征

对于语音识别,人工设计的对数梅尔滤波器组特征是否最佳仍有争议。 受机器学习社区内端到端处理的启发,研究人员一直试图用直接学习过滤器取代梅尔过滤器库提取。 直接学习滤波器是利用网络对原始语音波形进行处理,并用识别器网络训练得到滤波器。

目前在远场ASR领域的主要方法仍然是使用传统的波束形成方法来处理来自多个麦克风的波形,然后将波束形成的信号输入声学模型。 已经有一些关于使用深度学习来执行波束形成以及波束形成和标识符网络的联合训练的研究工作。

connectionist时序分类(CTC)

语音识别任务是一项序列到序列的翻译任务,即把输入波形映射到最终的单词序列或中间音素序列 声学模型应该真正关注输出单词或音素序列,而不是传统交叉熵训练中优化的逐帧标记。 为了将这一观点应用于语音输入帧并将其映射到输出标签序列中,提出了一种连接时间分类方法 为了解决语音识别任务中输出标签的数量少于输入语音帧的问题,CTC引入了特殊的空白色标签,允许标签重复,从而迫使输出和输入序列的长度相同

CTC的一个吸引人的特点是我们可以选择大于音素的输出单位,例如音节和单词。 这表明可以使用大于10 ms的采样速率构建输入特性。 CTC提供了一种以端到端方式优化声学模型的方法 在深度语音和EESEN的研究中,研究人员探索了使用端到端语音识别系统来直接预测字符而不是音素,从而消除了在

确定四氯化碳预测的基本输出单位是一个设计难题 其中,预定的固定分解不一定是最佳的。 GramCTC可以自动学习最合适的目标序列的分解。 然而,所有这些研究不能说是完整的端到端系统,因为它们使用语言模型和解码器。

因为ASR的目标是基于语音波形生成单词序列,单词单元是网络建模最自然的输出单元 通过使用100,000个单词作为输出目标和125,000个小时的数据来训练模型,发现使用单词单元的反恐系统可以超过使用音素单元的反恐系统。

受CTC研究的启发,一些研究人员最近提出了“无网格最大互信息/LFMMI”,它可以从零开始训练深度网络,而无需从交叉熵网络初始化。

一般来说,从DNN到LSTM(时间建模)到CTC(端到端建模),声学模型有一个清晰的主要发展路径 虽然当音素被用作建模单元时,LFMMI和其他建模技术可以实现与CTC类似的性能,但是它们可能与端到端建模的趋势不太一致,因为这些模型需要专家知识来设计,也需要语言模型和字典等组件来工作。

基于注意力的序列对序列翻译模型

基于注意力的序列对序列模型是另一种端到端模型。 它源于机器学习领域的一个成功模型,即使用注意解码器扩展编码器-解码器框架。

这种基于注意力的模型不像反恐委员会那样假设框架是独立的,这也是注意力模型的一个主要优点。 这种基于注意力的模式比反恐委员会模式更难训练

基于注意力的模型也有从左到右不单调对齐和收敛缓慢的缺点 以反恐目标函数为辅助成本函数,注意力训练和反恐训练以多任务学习模式相结合。 这种训练策略极大地提高了基于注意力的模型的收敛性,并缓解了对齐问题。

4。声学模型鲁棒性

当测试集和训练集匹配时,特别是当两者处于非常接近的对话条件下时,当前最好的系统可以获得极好的识别精度。 然而,当有更多的噪音(包括音乐或干扰扬声器)或不匹配或复杂的环境(如浓重的口音)时,系统的性能将会大大降低 该问题的解决方案包括自适应、语音增强和鲁棒建模。

声学模型适应

给定有限的自适应数据,说话人相关模型和说话人无关模型之间的差距应该很小。 库尔巴克-莱布勒散度(KLD)正则化被添加到训练标准中,以防止自适应模型偏离国际标准化组织模型太远。 这种KLD自适应标准已被证明在处理有限自适应数据的情况下非常有效。

大多数研究集中在如何使用非常少量的参数来表征说话者的特征,而不是调整自适应标准 奇异值分解瓶颈适应是解决方案之一。该方法利用奇异值分解重构结构,可以获得低资源消耗的奇异值分解模型

k×k标准差矩阵通常是对角占优矩阵。这一观察启发研究人员提出低秩加对角/LRPD分解,它可以将k×k标准差矩阵分解成对角矩阵加上两个低秩矩阵的乘积

另一种寻找变换的低维子空的方法是子空子空间方法,它只需要几个参数来指定每个变换 这一类别中的一种流行方法是使用辅助特征,例如I向量、说话人代码和噪声估计,它们与标准声学特征相连接

其他sub 空方法还包括聚类自适应训练(CAT)和因子化隐藏层(FHL),其中转换将限于sub 空

卡特彼勒风格方法的一个问题是其基础是全秩矩阵,这需要大量的训练数据。 因此,猫的自由基数量通常限制在几个 使用FHL是一种将基础限制在一级矩阵的解决方案。 这样,可以减少每个基地所需的训练数据,从而可以在训练数据固定的情况下增加基地的数量。

语音增强和分离

众所周知,当语音与强噪声混合或干扰语音时,当前的自动语音识别系统将表现不佳。 虽然人类听众也受到较差音频信号的影响,但性能水平的下降明显小于自动语音识别系统。

在单声道语音增强和分离任务中,假设只知道线性混合的单个麦克风信号,目标是恢复音频源中的每个音频流 语音增强和分离通常发生在时频域。

研究人员最近开发了许多用于语音增强和分离的深度学习技术。 这些技术的核心是将强化和分离问题转化为监督学习问题。 更具体地,给定成对的(通常是人工的)混合语音和声源,对于每个时间频率仓,深度学习模型被优化以预测声源是否属于目标类别

独立于说话人的多说话人语音分离的困难在于标签的模糊性或排列。 因为音频源在混合信号中是对称的,所以在监督学习过程中不能预先将正确的源目标分配给相应的输出层。 因此,该模型不会被很好地训练来分离语音。 幸运的是,已经提出了几种技术来解决标签模糊的问题。

Hershey等人提出了一种叫做深度聚类/DPCL的新技术 该模型假设每个时间-频率间隔只属于一个说话者。 在训练过程中,每个时间-频率间隔被映射到嵌入式空 然后优化嵌入,使得属于同一说话者的时间-频率间隔在这个空中更近,而属于不同说话者的时间-频率间隔更远。 在评估过程中,模型将使用聚类算法在嵌入时生成时频区间划分。

Yu等人和Kolbak等人提出了一种更简单的技术排列不变训练/pit来克服与说话人无关的多说话人语音分离问题。 在这种新方法中,源目标被视为一个集合(即顺序无关) 在训练过程中,PIT首先根据前向结果确定句子级误差最小的输出目标分配 然后基于该分配的误差被最小化 该策略简单直接地同时解决了标签排列和说话人跟踪的问题。 PIT不需要单独的跟踪步骤(因此它可以用于实时系统) 相反,每个输出层对应于一个源流

对于语音识别,我们可以将每个单独的语音流输入自动语音识别系统 更好的是,基于深度学习的声学模型可以用单独的组件(通常是RNN)进行端到端优化 由于分离只是一个中间步骤,Yu等人提出使用PIT来直接在senone标签上优化交叉熵标准,而不是要求明确的语音分离步骤。

稳健训练

深度学习网络的成功是由于大量转录数据可用于训练数百万模型参数 然而,当测试数据来自一个新的领域时,深度模型的性能仍然会下降。

最近,为了获得对噪声具有鲁棒性的ASR,还探索了对抗训练的概念。 这种解决方案是一种完全无监督的领域适应方法,不会使用太多关于新领域的知识。 它的训练是通过在编码器网络的域鉴别器网络之间插入梯度反向层/GRL来实现的

最近,为了不使用转录数据进行改编,研究人员提出了一种教师/学生学习方法。 来自源域的数据由源域模型(教师)处理,以生成相应的后验概率或软标签 这些后验概率被用来替换从转录数据得到的硬标签,以使用来自目标域的并行数据来训练目标模型(学生)

5。通过堆叠多层网络训练深层网络的有效解码声学模型有助于提高字差错率(WER) 然而,计算成本是一个问题,特别是在实时性高的行业部署中。 有几种方法可以降低运行时成本

第一种方法是奇异值分解 奇异值分解方法将一个满秩矩阵分解成两个低秩矩阵,这样深度模型中的参数数量可以显着减少,而精度在再训练后不会降低。

第二种方法是使用教师/学生(T/S)学习或知识提炼,通过最小化小规模DNN和标准大规模DNN之间的输出分布来压缩标准DNN模型

第三种方法是通过大量量化来压缩模型,这可以用非常低的比特量化或矢量量化来应用。

第四个解决方案是操作模型结构 为了降低计算成本,研究人员提出了一种带有投影层的LSTMP),即在LSTM层之后增加一个线性投影层

最后,跨帧相关性可以用来降低深度网络得分的评估频率 对于DNN或美国有线电视新闻网来说,这可以通过使用帧跳过策略来实现,即每隔几帧计算一次声学得分,并且该得分被复制到该帧,而无需在解码时评估声学得分。

6,未来方向

这一领域的研究前沿已经从使用近距离麦克风的人造卫星转变为使用远场麦克风的人造卫星。这一发展的驱动力是用户对无需佩戴或携带近距离麦克风就能与设备互动的需求日益增长。

虽然为近距离场景开发的许多语音识别技术可以直接应用于远场场景,但这些技术在远距离识别场景中表现不佳 为了解决远程语音识别问题,需要优化从音频采集(如麦克风阵列信号处理)到声学建模和解码的整个过程。

这篇文章的来源和出处已经标记。版权属于原作者。如果有侵权行为,请联系我们。

贵州快3 广东11选5 传奇私服_中国 传奇私服考查询 最新的传奇私服发布网 山东彩票网 甘肃快3 山东彩票网 极速11选5 163彩票官网