分类
ASRT 智能语音技术

[论文翻译]SpecAugment:一种用于自动语音识别的简单数据扩增方法

(在苹果系统下,如果文章中的图片不能正常显示,请升级Safari浏览器到最新版本,或者使用Chrome、Firefox浏览器打开。)

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

原文:https://arxiv.org/abs/1904.08779

Daniel S. Park∗, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le

Google Brain

{danielspark, williamchan, ngyuzh, chungchengc, barretzoph, cubuk, qvl}@google.com

摘要

我们提出了SpecAugment,一种用于语音识别的简单数据扩增方法。 SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。增强策略包括特征变形,频率通道的屏蔽块和时间步长的屏蔽块。我们将SpecAugmenton的听,注意和拼写网络应用于端到端语音识别任务。我们在LibriSpeech 960h和Swichboard 300h任务上实现了最先进的性能,胜过所有先前的工作。在LibriSpeech上,在不使用语言模型的情况下,测试其他用户的WER为6.8%,在与语言模型的浅层融合时,WER为5.8%。与之相比,之前的最新混合系统为WER为7.5%。对于Switchboard,在不使用语言模型的情况下,我们在Hub5’00测试集的Switchboard / CallHome部分上达到7.2%/ 14.6%,在使用浅层融合的情况下达到6.8%/ 14.1%,而之前最佳的混合系统WER为8.3%/ 17.3%。

关键词:端到端语音识别,数据扩增

1. 引言

深度学习已成功应用于自动语音识别(ASR)[1],其中研究的主要重点是设计更好的网络架构,例如DNN [2],CNN [3],RNN [4]和端到端模型[5、6、7]。 但是,这些模型易于过拟合,并需要大量的训练数据[8]。

已经提出了数据增强作为生成用于ASR的附加训练数据的方法。 例如,在[9,10]中,为低资源语音识别任务增加了人工数据。 声道长度归一化已被用于[11]中的数据增强。 噪声音频是通过将干净的音频与噪声音频信号in [12]叠加而合成的。 速度扰动已在原始音频中应用于LVSCR任务[13]。 在[14]中已经探索了声学房间模拟器的使用。 在[15,16]中已经研究了用于关键词发现的数据增强。 更一般而言,学习的增强技术已经探索了增强变换的不同序列,这些序列在图像域中已实现了最先进的性能[17]。

受到语音和视觉领域增强技术的最新成功的启发,我们提出了SpecAugment,这是一种对输入音频的log mel声谱图而非原始音频本身进行运算的增强方法。 该方法简单易行,并且计算成本低廉,因为它像对图像一样直接作用于对数梅尔频谱图,并且不需要任何其他数据。 因此,我们可以在训练期间在线应用SpecAugment。 SpecAugment由log mel频谱图的三种变形组成。 首先是时间扭曲,这是时间序列在时间方向上的变形。 在计算机视觉[18]中,受“剪裁”启发而进行的另外两个增补是时间和频率的遮盖,其中我们掩盖了一段连续的时间步长或梅尔频率通道。

这种方法虽然基本,但非常有效,它使我们能够训练称为“Listen Attend and Spell(LAS)”的端到端ASR网络[6],以超越更复杂的混合系统,并获得最新的结果即使不使用语言模型(LM)。在LibriSpeech [19]上,我们在不使用LM的情况下,在无噪声的测试集上实现了2.8%的单词错误率(WER),在其他测试集上实现了6.8%的WER。通过在LibriSpeech LM语料库上训练有素的LM进行浅层融合[20]后,我们可以改善性能(在无噪声的测试上WER为2.5%,在其他测试集上WER为5.8%),从而改善了other上的最新技术相对减少了22%。在总机300h(LDC97S62)[21]上,我们在不使用LM的情况下,在Hub5’00(LDC2002S09,LDC2003T02)测试装置的总机部分获得了7.2%的WER,在CallHome部分获得了14.6%的WER。通过在Switchboard和Fisher(LDC200 {4,5} T19)[22]语料库的组合转录本上训练的LM进行浅层融合后,我们在Switchboard / Callhome部分获得了6.8%/ 14.1%的WER。

2. 扩增策略

我们旨在构建一种直接作用于log mel频谱图的增强策略,以帮助网络学习有用的特征。出于以下目的的动机:这些特征应对时间方向上的变形,频率信息的部分丢失和小段语音的部分丢失具有鲁棒性,我们选择了以下变形来构成策略:

  1. 通过tensorflow的函数稀疏图像扭曲来应用时间扭曲。给定具有τ个时间步长的对数梅尔频谱图,我们将其视为时间轴为水平而频率轴为垂直的图像。沿水平线在时间步长(W,τ-W)内穿过图像中心的随机点应向左或向右弯曲一段距离w,该距离应从0到时间扭曲的均匀分布中选择沿该线的参数W。
  2. 应用频率屏蔽,以便屏蔽f个连续的梅尔频率通道[f0,f0 + f),其中f首先从0到频率屏蔽参数F的均匀分布中选择,而f0从[0,ν中选择-f)。 ν是梅尔频道的数量。
  3. 应用时间屏蔽,以便屏蔽t个连续的时间步长[t0,t0 + t),其中t是从0到时间屏蔽参数T的均匀分布中第一个选择的,而t0是从[0,τ- t)。 •我们在时间掩码中引入了一个上限,以使时间掩码的宽度不能超过时间步数的p倍。

图1:应用于基础输入的增强,在顶部给出。 图从上到下描绘了基本输入的对数梅尔声谱图,依次为无进行增强、时间扭曲、频率屏蔽和时间屏蔽。

图2:应用于基本输入的扩充策略。 图从上到下描述了对基本输入的对数梅尔频谱图的无增强策略,LB策略和LD策略。

图1显示了应用于单个输入的各个增强的示例。 将对数梅尔频谱图归一化为平均值为零,因此将掩码值设置为零等同于将其设置为平均值。 我们可以考虑应用多个频率和时间掩码的策略。 多个覆盖可以重叠。 在这项工作中,我们主要考虑一系列手工制定的策略,LibriSpeech basic(LB),LibriSpeech double(LD),Switchboard mild(SM)和Switchboard strong(SS),其参数汇总在表1中。在图2中, 我们展示了一个使用策略LB和LD增强的对数梅尔频谱图的示例。

表1:策略的扩充参数。 mF和mT表示应用的频率和时间掩码的数量。

Policy W F mF T p mT
None 0 0 0
LB 80 27 1 100 1.0 1
LD 80 27 2 100 1.0 2
SM 40 15 2 70 0.2 2
SS 40 27 2 70 0.2 2

3. 模型

我们将Listen, Attend and Spell(LAS)网络[6]用于我们的ASR任务。 这些模型是端到端的,易于训练,并且具有建立完善的基准测试[23,24]和额外好处,我们可以以此为基础来获取结果。 在本节中,我们回顾LAS网络并引入一些表示法以对它们进行参数化。 我们还介绍了用于训练网络的学习率时间表,因为它们实际上是决定性能的重要因素。 我们首先回顾浅层融合[20],我们将其用于合并语言模型以进一步提高性能。

3.1. LAS 网络架构

对于[24]中研究的端到端ASR,我们使用Listen, Attend and Spell(LAS)网络[6],为此我们使用符号LASd-w。输入对数mel频谱图被传递到最大池化且步长为2的2层卷积神经网络(CNN)。CNN的输出通过编码器,该编码器由d个堆叠的单元大小为w的双向LSTM组成,产生一系列注意力向量,注意力向量被馈送到单元尺寸为w的2层RNN解码器中,该解码器会生成转写的标记符。使用Word Piece Model(WPM)[25]标记文本,其中LibriSpeech的词汇量为16k,Switchboard的词汇量为1k。 LibriSpeech 960h的WPM使用训练集转写文本构建。对于“Switchboard 300h”任务,将训练集中的转写文本与Fisher语料库的转写文本相结合以构建WPM。最后的转写文本是通过使用尺寸为8 的Beam进行的beam搜索获得的。为了与[24]进行比较,我们注意到它们在我们符号中的“大模型”是LAS-4-1024。

3.2. 学习率时间表

事实证明,学习速率时间表是决定ASR网络性能的重要因素,尤其是在有数据增强的情况下。 在这里,我们介绍的训练时间表有两个目的。 首先,我们使用这些时间表来验证更长的时间表可以改善网络的最终性能,而增强功能则可以提高性能(表2)。 其次,基于此,我们介绍了很长的时间表,这些时间表用于最大化网络的性能。

我们使用学习率时间表,在其中提高,保持然后以指数方式衰减学习率,直到达到其最大值的1/100。 超过这一点,学习率保持恒定。 该时间表由三个时间戳(sr,si,sf)进行参数化:当学习率上升结束时(从零学习率开始)完成的步骤sr,开始进行指数衰减的步骤si,以及完成指数衰减的停止sf 。

在我们的实验中还有另外两个因素引入了时间尺度。 首先,我们在步骤Snoisr中打开标准偏差为0.075的权重变化噪声[26],并在整个训练过程中使其保持恒定。 在步长间隔(sr,si)中,即在学习率的高平稳期引入权重噪声。

其次,我们引入具有不确定性0.1的统一标签平滑[27],即正确的类别标签被指定为置信度0.9,而其他标签的置信度则相应增加。 正如稍后再次提到的,标签平滑会破坏较小学习率的训练的稳定性,我们有时选择仅在训练开始时启用,而当学习率开始下降时将其关闭。

我们使用的两个基本时间表如下:

  1. B(asic):(s_r,s_noise,s_i,s_f)=(0.5k,10k,20k,80k)
  2. D(ouble):( s_r,s_noise,s_i,s_f)=(1k,20k,40k,160k)

如第5节中进一步讨论的,我们可以通过使用更长的时间表来提高训练网络的性能。 因此,我们引入以下时间表:3. L(ong):(s_r,s_noise,si,sf)=(1k,20k,140k,320k),我们用它来训练最大的模型以提高性能。 使用时间表L时,对于LibriSpeech 960h,对于<si = 140k的时间步长引入不确定性为0.1的标签平滑,然后将其关闭。 对于总机300h,在整个培训过程中将打开标签平滑功能。

3.3. 与语言模型的浅融合

虽然我们可以通过数据扩增获得最先进的结果,但是通过使用语言模型可以得到进一步的改进。 因此,我们通过浅层融合为这两个任务合并了RNN语言模型。 在浅层融合中,解码过程中的“下一个标记符” y *由下式确定:


\( y^* = \arg\max\limits_{y} (\log P(y|x)+\lambda \log P_{LM}(y)), \tag{1} \)

即通过使用基本ASR模型和语言模型共同对标记符进行评分。 我们还使用了覆盖惩罚c [28]。

对于LibriSpeech,我们在LM的[24]中使用具有嵌入尺寸1024的两层RNN,它是在LibriSpeech LM语料库上训练的。 我们在[24]中始终使用相同的融合参数(λ= 0.35和c = 0.05)。

对于Switchboard,我们使用embedding维数为256的两层RNN,它在Fisher和Switchboard数据集的组合转录本上进行训练。 我们通过测量RT-03(LDC2007S10)的性能,通过网格搜索找到融合参数。 我们将在第4.2节中讨论单个实验中使用的融合参数。

4. 实验

在本节中,我们将介绍使用SpecAugment在LibriSpeech和Switchboard上进行的实验。 我们报告的最新结果优于精心设计的混合系统。

4.1. LibriSpeech960h

对于LibriSpeech,我们使用与[24]相同的设置,其中我们使用具有delta和delta-delta加速度的80维滤波器组,以及一个16k的word piece model [25]。

在LibriSpeech 960h上对三个网络LAS-4-1024,LAS-6-1024和LAS-61280进行了训练,结合了增强策略(无,LB,LD)和训练时间表(B / D)。 在这些实验中未应用标签平滑处理。 在32个Google Cloud TPU芯片上以0.001的峰值学习率和512的批量大小进行了为期7天的实验。 除了增强策略和学习率时间表外,所有其他超参数都已固定,并且没有应用其他调整。 我们在表2中报告了通过dev-other集验证的测试集编号。我们看到,扩充可以持续提高训练网络的性能,而随着扩充范围的增加,更大的网络和更长的学习率时间表的好处就更加明显。

我们采用最大的网络LAS-6-1280,并使用时间表L和策略LD来训练网络以最大化性能。 如前所述,我们启用小于140k的时间步的标签平滑处理。 通过评估具有最佳dev-other性能的检查点来报告测试集性能。 即使没有语言模型,LAS-6-1280模型也能达到最新的性能。 我们可以使用浅层融合合并LM,以进一步提高性能。 结果列于表3。

表2:针对不同的网络,时间表和策略评估的LibriSpeech测试WER(%)。 [24]中的第一行。

表3:LibriSpeech 960h WER(%)

4.2. Switchboard 300h

对于Switchboard 300h,我们使用Kaldi [39]“ s5c”方法来处理数据,但是我们使该方法适应于使用具有delta和delta – delta加速度的80维滤波器组。我们使用1k WPM [25]来标记输出,该输出是使用Switchboard和Fisher转写文本的组合词汇构建的。

我们使用策略(无,SM,SS)和时间表B训练LAS-4-1024。像以前一样,我们将峰值学习率设置为0.001,总批量大小设置为512,并使用32个Google Cloud TPU芯片进行训练。在这里,实验在有和没有标签平滑的情况下进行。由于没有规范的开发集,我们选择在训练时间表的终点评估检查点,我们选择训练时间表B的步数为100k。我们注意到训练曲线在衰减时间表完成后放松(步骤sf) ,并且网络的性能相差不大。表4显示了Switchboard 300h带有和不带有标签平滑的各种增强策略的性能。我们看到,标签平滑和增强对此语料库具有累加作用。

表4:评估了具有时间表B的LAS-4-1024的配电盘300h WER(%),具有可变的扩充和标签平滑(LS)策略。 没有使用LM。

与LibriSpeech 960h一样,我们在Switchboard 300h训练集上使用时间表L训练LAS-6-1280,以获取最新的性能。 在这种情况下,我们发现在整个训练过程中启用标签平滑功能会提高最终效果。 我们在训练时间结束时报告了340k步的性能。 我们在表5中的其他工作中介绍了我们的结果。我们还将浅融合与在Fisher-Switchboard上训练的LM结合使用,该融合的融合参数是通过评估RT-03语料库的性能而获得的。 与LibriSpeech的情况不同,融合参数在训练不同的网络之间传递不佳-表5中的三个条目是通过分别使用融合参数(λ,c)=(0.3,0.05),(0.2,0.0125)和(0.1,0.025)获得的。

表5:Switchboard 300h WER(%)。

5. 讨论

时间扭曲有助于实现,但不是提高性能的主要因素。 在表6中,我们给出了三个训练结果,分别针对它们关闭了时间扭曲,时间屏蔽和频率屏蔽。 我们看到时间扭曲影响虽然很小,但仍然存在。 时间扭曲是这项工作中讨论的最昂贵且影响最小的增补,如果有任何预算限制,应将其作为第一个应放弃的增补。

表6:对于使用时间表B训练的网络LAS-4-1024,在没有LM的情况下评估的测试集WER(%)。

标签平滑将不稳定性引入到训练中。 我们注意到,当标签平滑与增强一起应用时,LibriSpeech的不稳定训练运行的比例会增加。 当学习速率下降时,这变得更加明显,因此我们引入了用于训练LibriSpeech的标签平滑时间表,其中标签仅在学习速率时间表的初始阶段被平滑。 数据增强将过拟合的问题转换为欠拟合的问题。 从图3中的网络训练曲线可以看出,训练期间的网络不仅可以在增强训练集上欠拟合损失和WER,而且可以在通过增强数据进行训练时对训练集本身进行损失。 这与网络通常偏向于过拟合训练数据的情况形成了鲜明的对比。 这是有数据增强训练的主要好处,如下所述。

图3:LibriSpeech上的LAS-6-1280,使用时间表D.

改善欠拟合的方法很多。 我们能够通过标准的方法来缓解欠拟合的问题,即扩大网络规模并延长训练时间。 当前报告的性能是通过应用严格的扩充策略的递归过程获得的,然后递归建立更广泛,更深的网络,并以更长的时间表训练它们以解决欠拟合的情况。

6. 结论

SpecAugment大大提高了ASR网络的性能。 通过使用简单的手工策略增加训练集,即使不借助混合系统,也可以超越混合系统的性能,从而在端到端LAS网络上的LibriSpeech 960h和Switchboard 300h任务上不借助语言模型而获得最新的结果。 SpecAugment将ASR从过拟合问题转换为欠拟合问题,并且我们能够通过使用更大的网络和更长时间的训练来提高性能。

致谢:我们要感谢Yuan Cao,切普里安·切尔巴(Ciprian Chelba),伊藤一树(Kazuki Irie),叶佳,安朱利·坎南(Anjuli Kannan),帕特里克·阮(Patrick Nguyen),维杰·佩丁迪(Vijay Peddinti),罗希特·普拉巴哈瓦卡(Rohit Prabhavalkar),Yonghui Wu和Shuyuan Zhang的有益讨论。

参考

[1] G. Hinton, L. Deng, D. Yu, G. Dahl, A.-r. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, B. Kingsbury et al., “Deep neural networks for acoustic modeling in speech recognition,” IEEE Signal processing magazine, vol. 29, 2012.

[2] G. Dahl, D. Yu, L. Deng, and A. Acero, “Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, Jan 2012.

[3] T. Sainath, A. rahman Mohamed, B. Kingsbury, and B. Ramabhadran, “Deep Convolutional Neural Networks for LVCSR,” in ICASSP, 2013.

[4] A. Graves, A. rahman Mohamed, and G. Hinton, “Speech Recognition with Deep Recurrent Neural Networks,” in ICASSP, 2013.

[5] A. Graves and N. Jaitly, “Towards End-to-End Speech Recognition with Recurrent Neural Networks,” in ICML, 2014.

[6] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition,” in ICASSP, 2016.

[7] D.Bahdanau,J.Chorowski,D.Serdyuk,P.Brakel,andY.Bengio, “End-to-End Attention-based Large Vocabulary Speech Recognition,” in ICASSP, 2016.

[8] C.-C. Chiu, T. N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R. J. Weiss, K. Rao, E. Gonina, N. Jaitly, B. Li, J. Chorowski, and M. Bacchiani, “State-of-the-art Speech Recognition With Sequence-to-Sequence Models,” in ICASSP, 2018.

[9] N. Kanda, R. Takeda, and Y. Obuchi, “Elastic spectral distortion for low resource speech recognition with deep neural networks,” in ASRU, 2013.

[10] A. Ragni, K. M. Knill, S. P. Rath, and M. J. F. Gales, “Data augmentation for low resource languages,” in INTERSPEECH, 2014.

[11] N.JaitlyandG.Hinton,“VocalTractLengthPerturbation(VTLP) improvesspeechrecognition,”inICMLWorkshoponDeepLearning for Audio, Speech and Language Processing, 2013.

[12] A. Hannun, C. Case, J. Casper, B. Catanzaro, G. Diamos, E. Elsen, R. Prenger, S. Satheesh, S. Sengupta, A. Coates, and A.Ng,“DeepSpeech: Scalingupend-to-endspeechrecognition,” in arXiv, 2014.

[13] T.Ko,V.Peddinti,D.Povey,andS.Khudanpur,“AudioAugmentation for Speech Recognition,” in INTERSPEECH, 2015.

[14] C. Kim, A. Misra, K. Chin, T. Hughes, A. Narayanan, T. Sainath, andM.Bacchiani,“Generationoflarge-scalesimulatedutterances in virtual rooms to train deep-neural networks for far-field speech recognition in Google Home,” in INTERSPEECH, 2017.

[15] R. Prabhavalkar, R. Alvarez, C. Parada, P. Nakkiran, and T. N. Sainath, “Automatic gain control and multi-style training for robustsmall-footprintkeywordspottingwithdeepneuralnetworks,” in ICASSP, 2015.

[16] A. Raju, S. Panchapagesan, X. Liu, A. Mandal, and N. Strom, “Data Augmentation for Robust Keyword Spotting under Playback Interference,” in arXiv, 2018.

[17] E.D.Cubuk,B.Zoph,D.Man´e,V.Vasudevan,andQ.V.Le,“Autoaugment: Learning augmentation policies from data,” CoRR, vol. abs/1805.09501, 2018.

[18] T. DeVries and G. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout,” in arXiv, 2017.

[19] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: An ASR corpus based on public domain audio books,” in ICASSP, 2015.

[20] C¸. G¨ulc¸ehre, O. Firat, K. Xu, K. Cho, L. Barrault, H. Lin, F. Bougares, H. Schwenk, and Y. Bengio, “On using monolingual corpora in neural machine translation,” in arxiv, 2015.

[21] J. Godfrey, E. Holliman, and J. McDaniel, “SWITCHBOARD: telephone speech corpus for research and development,” in ICASSP, 1992.

[22] C. Cieri, D. Miller, and K. Walker, “The fisher corpus: a resource for the next generations of speech-to-text,” in LREC, 2004.

[23] A. Zeyer, K. Irie, R. Schl¨uter, and H. Ney, “Improved training of end-to-end attention models for speech recognition,” in INTERSPEECH, 2018.

[24] K.Irie, R.Prabhavalkar, A.Kannan,A.Bruguier, D.Rybach, and P. Nguyen, “Model Unit Exploration for Sequence-to-Sequence Speech Recognition,” in arXiv, 2019.

[25] M. Schuster and K. Nakajima, “Japanese and korean voice search,” in ICASSP, 2012.

[26] A.Graves,“Practical Variational Inference for Neural Networks,” in NIPS, 2011.

[27] C.Szegedy,V.Vanhoucke,S.Ioffe,J.Shlens,andZ.Wojna,“Rethinkingtheinceptionarchitectureforcomputervision,”inCVPR, 2016.

[28] J. Chorowski and N. Jaitly, “Towards better decoding and language model integration in sequence to sequence models,” in INTERSPEECH, 2017.

[29] D. Povey, V. Peddinti, D. Galvez, P. Ghahrmani, V. Manohar, X. Na, Y. Wang, and S. Khudanpur, “Purely sequence-trained neural networks for ASR based on lattice-free MMI,” in INTERSPEECH, 2016.

[30] K. J. Han, A. Chandrashekaran, J. Kim, and I. Lane, “The CAPIO 2017 Conversational Speech Recognition System,” in arXiv, 2017.

[31] X. Yang, J. Li, and X. Zhou, “A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition,” in arXiv, 2018.

[32] R.Collobert,C.Puhrsch,andG.Synnaeve,“Wav2Letter: anEndto-End ConvNet-based Speech Recognition System,” in arXiv, 2016.

[33] V. Liptchinsky, G. Synnaeve, and R. Collobert, “Letter-Based SpeechRecognitionwithGatedConvNets,”inarXiv:1712.09444, 2017.

[34] Y. Zhou, C. Xiong, and R. Socher, “Improving End-to-End Speech Recognition with Policy Learning,” in ICASSP, 2018.

[35] N. Zeghidour, Q. Xu, V. Liptchinsky, N. Usunier, G. Synnaeve, and R. Collobert, “Fully Convolutional Speech Recognition,” in arXiv, 2018.

[36] J. Li, V. Lavrukhin, B. Ginsburg, R. Leary, O. Kuchaiev, J. M. Cohen, H. Nguyen, and R. T. Gadde, “Jasper: An End-to-End Convolutional Neural Acoustic Model,” in arXiv, 2019.

[37] A. Zeyer, A. Merboldt, R. Schl¨uter, and H. Ney, “A comprehensive analysis on attention models,” in NIPS: Workshop IRASL, 2018.

[38] S. Sabour, W. Chan, and M. Norouzi, “Optimal Completion Distillation for Sequence Learning,” in ICLR, 2019.

[39] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, and K. Vesely, “The Kaldi Speech Recognition Toolkit,” in ASRU, 2011.

[40] K. Vesely, A. Ghoshal, L. Burger, and D. Povey, “Sequence discriminative training of deep neural networks,” in INTERSPEECH, 2013.

[41] H. Hadian, H. Sameti, D. Povey, and S. Khudanpur, “End-to-end speech recognition using lattice-free MMI,” in INTERSPEECH, 2018.

[42] G. Zweig, C. Yu, J. Droppo, and A. Stolcke, “Advances in AllNeural Speech Recognition,” in ICASSP, 2017.

[43] K.Audhkhasi,B.Ramabhadran,G.Saon,M.Picheny,andD.Nahamoo,“DirectAcoustics-to-WordModelsforEnglishConversational Speech Recognition,” in INTERSPEECH, 2018.

[44] K. Audhkhasi, B. Kingsbury, B. Ramabhadran, G. Saon, and M. Picheny, “Building competitive direct acoustics-to-word models for english conversational speech recognition,” in ICASSP, 2018.

[45] L. Lu, X. Zhang, and S. Renals, “On training the recurrent neural network encoder-decoder for large vocabulary end-to-end speech recognition,” in ICASSP, 2016.

[46] S. Toshniwal, H. Tang, L. Lu, and K. Livescu, “Multitask Learning with Low-Level Auxiliary Tasks for Encoder-Decoder Based Speech Recognition,” in INTERSPEECH, 2017.

[47] C.Weng, J.Cui, G.Wang, J.Wang, C.Yu,D.Su, and D.Yu, “Improving Attention Based Sequence-to-Sequence Models for Endto-End English Conversational Speech Recognition,” in INTERSPEECH, 2018.

版权声明
本博客的文章除特别说明外均为原创,本人版权所有。欢迎转载,转载请注明作者及来源链接,谢谢。
本文地址: https://blog.ailemon.net/2020/03/09/paper-translation-specaugment-a-simple-data-augmentation-method-for-automatic-speech-recognition/
All articles are under Attribution-NonCommercial-ShareAlike 4.0

关注“AI柠檬博客”微信公众号,及时获取你最需要的干货。


发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

5 × 1 =

如果您是第一次在本站发布评论,内容将在博主审核后显示,请耐心等待