AI柠檬

一个科技爱好者的个人博客

分类：智能语音技术

关注语音识别、声纹识别、语音合成相关的科学技术及应用

[论文分享]迁移学习实现基于预算的语音识别

浏览量： 737

Kunze, Julius, et al. “Transfer learning for speech recognition on a budget.” arXiv preprint arXiv:1706.00290 (2017).

大家好，本次我要分享的论文是Transfer Learning for Speech Recognition on a Budget
（更多…）

2020-09-14
[论文分享]FastSpeech: 快速鲁棒可控的语音合成

浏览量： 2,113

Ren, Yi, et al. “Fastspeech: Fast, robust and controllable text to speech.” Advances in Neural Information Processing Systems. 2019.

本次分享的论文是FastSpeech语音合成框架，这篇论文由微软研究院和浙大联合发表在NIPS2019上。
（更多…）

2020-09-07
教你如何使用ASRT部署中文语音识别API服务器

浏览量： 18,430

ASRT是一个中文语音识别系统，由AI柠檬博主开源在GitHub( https://github.com/nl8590687/ASRT_SpeechRecognition )上，为了便于大家使用，本文将手把手按顺序教你如何使用ASRT语音识别系统在测试和生产环境中部署中文语音识别API服务器。文本以CPU (Intel x86_64) + Linux + Python 3 + Nginx 为示例运行环境。
（更多…）

2020-08-27
[论文分享]用GAN从MFCC合成语音波形

浏览量： 1,077

Juvela, Lauri, et al. “Speech waveform synthesis from MFCC sequences with generative adversarial networks.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

本次论文分享的是一篇2018年发表在IEEE上的用GAN从MFCC合成语音波形的论文。
（更多…）

2020-08-24
教你如何使用ASRT训练中文语音识别模型

浏览量： 28,578

ASRT是一个中文语音识别系统，由AI柠檬博主开源在GitHub( https://github.com/nl8590687/ASRT_SpeechRecognition )上，为了便于大家使用，本文将手把手按顺序教你如何使用ASRT语音识别系统训练一个中文语音识别模型。如果遇到任何问题，为了节省您的时间，请及时加QQ群或者微信群进行讨论，包括反馈bug或者版本兼容性等。

首先到GitHub上打开ASRT语音识别项目仓库：https://github.com/nl8590687/ASRT_SpeechRecognition

国内Gitee镜像地址：https://gitee.com/ailemon/ASRT_SpeechRecognition

打开的网页如图所示
（更多…）

2020-08-20
[论文分享]Char2wav端到端语音合成

浏览量： 669

Sotelo, Jose, et al. “Char2wav: End-to-end speech synthesis.” (2017).

Char2Wav是一个2017年发表在ICLR上的语音合成模型。
（更多…）

2020-08-17
几个免费开源的英文语音数据集

浏览量： 6,096

AI柠檬之前发布过一篇总结有哪些开源的中文语音数据集的文章（详见：几个最新免费开源的中文语音数据集），这里我将再总结一些免费开源的英文语音数据集，以方便大家做科研和工程时能够使用到。并且这里列举出的英文语音数据集可以确保能够下载和使用，并且是免费开源的，下载链接见文末。
（更多…）

2020-06-28
ASRT开源语音识别项目开始兼容TensorFlow 2.X

浏览量： 1,494

大约三周前，一位GitHub用户在ASRT开源语音识别项目提交了一个Issue，指出该项目不能运行于TensorFlow 2.X环境下，存在兼容问题。于是他上周向本项目提交了修改代码的Pull Request。经过本人实际测试，修改后的代码同时兼容TensorFlow 1.X版和2.X版，并且完全无错误正确运行。
（更多…）

2020-03-30
[论文翻译]SpecAugment:一种用于自动语音识别的简单数据扩增方法

浏览量： 3,703

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

原文：https://arxiv.org/abs/1904.08779

Daniel S. Park∗, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, Quoc V. Le

Google Brain

{danielspark, williamchan, ngyuzh, chungchengc, barretzoph, cubuk, qvl}@google.com
（更多…）

2020-03-09
ASRT语音识别程序依赖环境说明

浏览量： 1,480

ASRT语音识别项目是AI柠檬博主于2017年初开始着手实现的一个开源项目。由于本项目从最初第一个可用版发布到现在已经有较长时间了，在软件的依赖包方面，已经与两年前有了很大的不同，本文将介绍ASRT项目在程序运行的依赖环境上的一些问题，供参考，如果后续有变化，会及时更新。几乎所有基于TensorFlow 1.x版本和Keras的程序都可以参考本文的配置。

（更多…）

2019-10-17