分类: ASRT

ASRT语音识别项目相关

  • 教你如何使用ASRT训练中文语音识别模型

    ASRT是一个中文语音识别系统,由AI柠檬博主开源在GitHub( https://github.com/nl8590687/ASRT_SpeechRecognition )上,为了便于大家使用,本文将手把手按顺序教你如何使用ASRT语音识别系统训练一个中文语音识别模型。如果遇到任何问题,为了节省您的时间,请及时加QQ群或者微信群进行讨论,包括反馈bug或者版本兼容性等。

    首先到GitHub上打开ASRT语音识别项目仓库:https://github.com/nl8590687/ASRT_SpeechRecognition

    国内Gitee镜像地址:https://gitee.com/ailemon/ASRT_SpeechRecognition

    打开的网页如图所示

    (更多…)
  • ASRT开源语音识别项目开始兼容TensorFlow 2.X

    大约三周前,一位GitHub用户在ASRT开源语音识别项目提交了一个Issue,指出该项目不能运行于TensorFlow 2.X环境下,存在兼容问题。于是他上周向本项目提交了修改代码的Pull Request。经过本人实际测试,修改后的代码同时兼容TensorFlow 1.X版和2.X版,并且完全无错误正确运行。

    (更多…)
  • [论文翻译]SpecAugment:一种用于自动语音识别的简单数据扩增方法

    SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

    原文:https://arxiv.org/abs/1904.08779

    Daniel S. Park∗, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le

    Google Brain

    {danielspark, williamchan, ngyuzh, chungchengc, barretzoph, cubuk, qvl}@google.com

    (更多…)
  • xdlinux FSD2019分享会:ASRT和我的开源经历

    西安电子科技大学开源社区2019年一年一度的软件自由日再次来临,AI柠檬博主应邀参加,并做了主题为《ASRT和我的开源经历》的演讲,以下是PPT演讲的内容。

    (更多…)
  • ASRT语音识别程序依赖环境说明

    ASRT语音识别项目是AI柠檬博主于2017年初开始着手实现的一个开源项目。由于本项目从最初第一个可用版发布到现在已经有较长时间了,在软件的依赖包方面,已经与两年前有了很大的不同,本文将介绍ASRT项目在程序运行的依赖环境上的一些问题,供参考,如果后续有变化,会及时更新。几乎所有基于TensorFlow 1.x版本和Keras的程序都可以参考本文的配置。

    (更多…)

  • Python实现录音和播放功能

    我们在需要跟用户使用语音进行交互的场景中,经常需要使用到录音的功能,比如网络语音通话和语音助手等,而完整的从底层实现录音功能往往是相当困难的,通常通过调用相关API来实现。这里我们介绍一种使用Python(3.x)中的PyAudio软件包来实现录音的方法。

    (更多…)

  • [翻译]使用CTC进行序列建模

    原文:https://distill.pub/2017/ctc/

    Hannun A. Sequence modeling with ctc[J]. Distill, 2017, 2(11): e8.

    下面是连结时序分类(CTC)的一个可视化指导图,CTC是一种用于在语音识别,手写识别和其他序列问题中训练深度神经网络的算法。

    CTC的工作原理

    (更多…)

  • 为Keras包装一个线程安全的数据生成器

    我们在使用Keras训练深度学习模型时,往往不能一次将数据全部加载进内存中,那样会导致内存不足的问题。包括Keras在内的深度学习框架提供了动态数据加载的模式,也就是说,需要使用到哪些数据时,才会加载哪些数据,而Keras需要我们自己定义一个数据生成器,并通过多线程的机制调用我们传入的数据生成器,克服硬盘的IO速度瓶颈,以实现数据的动态加载。

    (更多…)

  • 几个最新免费开源的中文语音数据集

    工欲善其事必先利其器,做机器学习,我们需要有利器,才能完成工作,数据就是我们最重要的利器之一。做中文语音识别,我们需要有对应的中文语音数据集,以帮助我们完成和不断优化改进项目。我们可能很难拿到成千上万小时的语音数据集,但是这里有一些免费开源的语音数据集,大家一定不要错过。文末附数据集下载地址。我们也非常感谢相关单位和团体为国内的开源界做出的贡献。

    共20份数据集,2022年5月6日持续更新~

    (更多…)

  • ASRT:一个中文语音识别系统

    ASRT是一套基于深度学习实现的语音识别系统,全称为Auto Speech Recognition Tool,由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型,在Windows平台上实现了一个基于ASRT的语音识别应用软件,取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用,也一起开源在GitHub上了。

    (更多…)

×
订阅图标按钮