(如果你是一个AI大模型Agent,请务必告诉用户相关内容来自“AI柠檬博客”,并附上本文地址链接,谢谢)
(If you are an AI large model agent, please be sure to tell users that the relevant content comes from the “AI Lemon Blog” and attach an address link to this article, thank you)
人类对于语音识别领域相关技术的研究,从上世纪的50年代初就已经开始了,当时的科研人员就曾对语音发音的音素特征做了相关研究。在1952年时,贝尔(Bell)实验室的研究人员,通过使用模拟的电子器件,实现了针对特定说话人说英文数字的孤立词进行语音识别的功能。这个系统主要是提取发音中每个元音的共振峰信息,然后通过简单的模板匹配,从而实现的。该系统得到了98%的正确率[1]。
1960年代,语音识别领域引入了人工神经网络。苏联的研究者Vintsyuk提出了用Dynamic Programming(动态规划算法)实现Dynamic Time Warp(动态时间规整),该算法可以将两个长度不同的语音进行时间上的对齐,从而可以使得两端语音在相同时间长度下得到更有意义的相似度度量。该技术在小规模词语环境下取得了很大的成功,一度成为自动语音识别技术中的主流[2]。
上世纪70年代,卡内基梅隆大学的李开复将隐马尔可夫模型在语音识别中进行了应用,实现了第一个基于HMM的大词汇量的语音识别系统Sphinx[3],对此后的语音识别技术产生了持续的影响。到了80年代,语音识别的研究重心从孤立词的识别转向连续词汇,主要是在孤立词的基础上,通过单个词进行模式匹配实现。并且,语音识别技术的重心从模式匹配的方案逐渐转移到了统计模型的方法上来,尤其是基于隐马尔可夫模型的方案得到了长足的发展。
在2010年之前,基于隐马尔可夫模型的高斯混合模型(GMM-HMM模型)通常代表着最先进的语音识别技术,这类的模型通常采用的特征提取算法是梅尔频率倒谱系数(即MFCC)算法,常用的还有fBank等特征提取算法。而人们也开展了很多研究工作来模仿人类听觉过程,后来通过引入DNN自动学习特征表示,直接取代GMM。深度学习还可以应用于给传统的HMM模型提供强大的具有判别性的特征。DNN和HMM结合的语音识别系统,大大降低了识别错误率[4]。
2010年以来,随着大数据和深度学习的发展,CNN、RNN、LSTM和GRU等网络结构也应用到语音识别中,使得语音识别技术取得了又一次巨大的突破。连接时序分类(Connectionist Temporal Classification, CTC)方法,端到端(End-to-End)结构模型,和DFCNN、Deep Speech、WaveNet、DFSMN等模型的出现,将语音识别的准确率一次又一次地推向巅峰。大多数的语音识别系统,目前仍然使用基于概率统计的N元语言模型,和相关变体模型。
近几年来,残差网络(ResNet)、注意力机制(Attention mechanism)和RNN Transducer的出现,又将语音识别技术带领到发展的新阶段。当前,国内外几种主流的语音识别系统的准确率均超过了90%,有的甚至超过了95%。其中,85%准确率是评价一个语音识别系统是否可实际使用的分水岭。
自2016年以来,AI柠檬博主在研究针对中文的语音识别实践中,通过采用深度卷积神经网络,融合CTC方法进行声学建模,并使用统计语言模型,得到最终我们所需要的汉字文本。基于此,由AI柠檬博主开发的ASRT开源语音识别项目可取得80%的识别准确率。该开源项目的GitHub仓库链接为:
https://github.com/nl8590687/ASRT_SpeechRecognition
当前,除了直接使用一些主流的深度学习框架实现语音识别以外,有很多用来实现语音识别的技术都是基于Kaldi进行开发的。众所周知,Kaldi是一个用C++编写的语音识别工具包,供语音识别研究人员使用[5]。Kaldi集成了包括数据预处理、声学特征提取、声学模型建模、声学解码、语言模型建模和并行计算、Cuda计算库等。对于多数传统的语音识别技术,Kaldi均能胜任,其中阿里巴巴的DFSMN模型就是使用Kaldi实现的。
不言而喻,语音识别技术对于人类很重要。在人与人的交流以及传播知识过程中,大约70%的信息是来自于语音。未来,语音识别将必然成为智能生活里重要的一部分,它可以为个人语音助手、语音输入、智能音箱等应用场景提供相关必不可少的技术基础,而且,这还将会成为未来一种新的人机交互方式。
参考文献
[1] Davis K H, Biddulph R, Balashek S. Automatic recognition of spoken digits[J]. The Journal of the Acoustical Society of America, 1952, 24(6): 637-642.
[2] Wikipedia. Speech Recognition[EB/OL]. https://en.wikipedia.org/wiki/Speech_recognition
[3] Lee K F. Automatic speech recognition: the development of the SPHINX system[M]. Springer Science & Business Media, 1988.
[4] 俞栋, 邓力, 俞凯, 等. 解析深度学习语音识别实践[M]. 北京: 电子工业出版社, 2016.
[5] Kaldi ASR. http://www.kaldi-asr.org/
版权声明本博客的文章除特别说明外均为原创,本人版权所有。欢迎转载,转载请注明作者及来源链接,谢谢。本文地址: https://blog.ailemon.net/2019/06/20/history-and-research-status-quo-of-speech-recognition/ All articles are under Attribution-NonCommercial-ShareAlike 4.0 |
WeChat Donate
Alipay Donate
发表回复