AI柠檬

一个科技爱好者的个人博客

分类： ASRT

ASRT语音识别项目相关

教你如何使用ASRT训练中文语音识别模型

浏览量： 28,938

ASRT是一个中文语音识别系统，由AI柠檬博主开源在GitHub( https://github.com/nl8590687/ASRT_SpeechRecognition )上，为了便于大家使用，本文将手把手按顺序教你如何使用ASRT语音识别系统训练一个中文语音识别模型。如果遇到任何问题，为了节省您的时间，请及时加QQ群或者微信群进行讨论，包括反馈bug或者版本兼容性等。

首先到GitHub上打开ASRT语音识别项目仓库：https://github.com/nl8590687/ASRT_SpeechRecognition

国内Gitee镜像地址：https://gitee.com/ailemon/ASRT_SpeechRecognition

打开的网页如图所示
（更多…）

2020-08-20
ASRT开源语音识别项目开始兼容TensorFlow 2.X

浏览量： 1,531

大约三周前，一位GitHub用户在ASRT开源语音识别项目提交了一个Issue，指出该项目不能运行于TensorFlow 2.X环境下，存在兼容问题。于是他上周向本项目提交了修改代码的Pull Request。经过本人实际测试，修改后的代码同时兼容TensorFlow 1.X版和2.X版，并且完全无错误正确运行。
（更多…）

2020-03-30
[论文翻译]SpecAugment:一种用于自动语音识别的简单数据扩增方法

浏览量： 3,902

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

原文：https://arxiv.org/abs/1904.08779

Daniel S. Park∗, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le

Google Brain

{danielspark, williamchan, ngyuzh, chungchengc, barretzoph, cubuk, qvl}@google.com
（更多…）

2020-03-09
xdlinux FSD2019分享会：ASRT和我的开源经历

浏览量： 484

西安电子科技大学开源社区2019年一年一度的软件自由日再次来临，AI柠檬博主应邀参加，并做了主题为《ASRT和我的开源经历》的演讲，以下是PPT演讲的内容。
（更多…）

2019-11-11
ASRT语音识别程序依赖环境说明

浏览量： 1,517

ASRT语音识别项目是AI柠檬博主于2017年初开始着手实现的一个开源项目。由于本项目从最初第一个可用版发布到现在已经有较长时间了，在软件的依赖包方面，已经与两年前有了很大的不同，本文将介绍ASRT项目在程序运行的依赖环境上的一些问题，供参考，如果后续有变化，会及时更新。几乎所有基于TensorFlow 1.x版本和Keras的程序都可以参考本文的配置。

（更多…）

2019-10-17
Python实现录音和播放功能

浏览量： 3,366

我们在需要跟用户使用语音进行交互的场景中，经常需要使用到录音的功能，比如网络语音通话和语音助手等，而完整的从底层实现录音功能往往是相当困难的，通常通过调用相关API来实现。这里我们介绍一种使用Python(3.x)中的PyAudio软件包来实现录音的方法。

（更多…）

2019-08-13
[翻译]使用CTC进行序列建模

浏览量： 8,738

原文：https://distill.pub/2017/ctc/

Hannun A. Sequence modeling with ctc[J]. Distill, 2017, 2(11): e8.

下面是连结时序分类(CTC)的一个可视化指导图，CTC是一种用于在语音识别，手写识别和其他序列问题中训练深度神经网络的算法。

CTC的工作原理

（更多…）

2019-07-18
为Keras包装一个线程安全的数据生成器

浏览量： 1,084

我们在使用Keras训练深度学习模型时，往往不能一次将数据全部加载进内存中，那样会导致内存不足的问题。包括Keras在内的深度学习框架提供了动态数据加载的模式，也就是说，需要使用到哪些数据时，才会加载哪些数据，而Keras需要我们自己定义一个数据生成器，并通过多线程的机制调用我们传入的数据生成器，克服硬盘的IO速度瓶颈，以实现数据的动态加载。

（更多…）

2019-05-20
几个最新免费开源的中文语音数据集

浏览量： 88,574

工欲善其事必先利其器，做机器学习，我们需要有利器，才能完成工作，数据就是我们最重要的利器之一。做中文语音识别，我们需要有对应的中文语音数据集，以帮助我们完成和不断优化改进项目。我们可能很难拿到成千上万小时的语音数据集，但是这里有一些免费开源的语音数据集，大家一定不要错过。文末附数据集下载地址。我们也非常感谢相关单位和团体为国内的开源界做出的贡献。

共20份数据集，2022年5月6日持续更新~

（更多…）

2018-11-21
ASRT：一个中文语音识别系统

浏览量： 91,348

ASRT是一套基于深度学习实现的语音识别系统，全称为Auto Speech Recognition Tool，由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型，在Windows平台上实现了一个基于ASRT的语音识别应用软件，取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用，也一起开源在GitHub上了。

（更多…）

2018-08-29