分类
ASRT 智能语音技术 长期更新的内容

教你如何使用ASRT部署中文语音识别API服务器

ASRT是一个中文语音识别系统,由AI柠檬博主开源在GitHub( https://github.com/nl8590687/ASRT_SpeechRecognition )上,为了便于大家使用,本文将手把手按顺序教你如何使用ASRT语音识别系统在测试和生产环境中部署中文语音识别API服务器。文本以CPU (Intel x86_64) + Linux + Python 3 + Nginx 为示例运行环境。

分类
智能语音技术

[论文分享]用GAN从MFCC合成语音波形

Juvela, Lauri, et al. “Speech waveform synthesis from MFCC sequences with generative adversarial networks.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

本次论文分享的是一篇2018年发表在IEEE上的用GAN从MFCC合成语音波形的论文。

分类
ASRT 智能语音技术 长期更新的内容

教你如何使用ASRT训练中文语音识别模型

ASRT是一个中文语音识别系统,由AI柠檬博主开源在GitHub( https://github.com/nl8590687/ASRT_SpeechRecognition )上,为了便于大家使用,本文将手把手按顺序教你如何使用ASRT语音识别系统训练一个中文语音识别模型。如果遇到任何问题,为了节省您的时间,请及时加QQ群或者微信群进行讨论,包括反馈bug或者版本兼容性等。

首先到GitHub上打开ASRT语音识别项目仓库:https://github.com/nl8590687/ASRT_SpeechRecognition

国内Gitee镜像地址:https://gitee.com/ailemon/ASRT_SpeechRecognition

打开的网页如图所示

分类
智能语音技术

[论文分享]Char2wav端到端语音合成

Sotelo, Jose, et al. “Char2wav: End-to-end speech synthesis.” (2017).

Char2Wav是一个2017年发表在ICLR上的语音合成模型。

分类
机器学习及应用

[论文翻译] Dropblock:一个用于卷积网络的正则化方法

GolnazGhiasi, Tsung-YiLin, QuocV.Le
Google Brain

摘要

当深度神经网络被过度参数化并经过大量噪声和正则化训练(例如权重衰减和dropout)时,它们通常可以很好地工作。尽管Dropout被广泛用作全连接层的正则化技术,但对于卷积层而言,效果通常较差。卷积层Dropout的不太成功可能是由于以下事实:卷积层中的激活单元在空间上相关,因此尽管有丢失,信息仍可以通过卷积网络流动。因此,需要结构化的Dropout形式来规范卷积网络。在本文中,我们介绍了DropBlock,这是一种结构化的Dropout形式,其中特征图的连续区域中的单元被一起Drop掉。我们发现,在卷积层之外的跳过连接中应用DropbBlock可以提高准确性。同样,在训练过程中逐渐增加的Drop单元数量会产生更佳的准确性和对超参数选择的鲁棒性。大量的实验表明,在正则化卷积网络中,DropBlock的效果要优于Dropout。在ImageNet分类中,带有DropBlock的ResNet-50体系结构可实现78.13%的准确度,比基线提高了1.6%以上。在COCO检测时,DropBlock将RetinaNet的平均精度从36.8%提高到38.4%。

分类
机器学习及应用

[论文分享]Dropblock:一个用于卷积网络的正则化方法

Ghiasi, Golnaz, Tsung-Yi Lin, and Quoc V. Le. “Dropblock: A regularization method for convolutional networks.” Advances in Neural Information Processing Systems. 2018.

卷积层Dropout的不太成功可能是由于以下事实:卷积层中的激活单元在空间上相关,因此尽管有丢失,信息仍可以通过卷积网络流动。所以我们需要使用一个新的可以用于卷积层的Drop方法。

分类
机器学习及应用

生物信息学中的迁移学习

摘要: 在使用机器学习处理一些实际场景中的任务时,往往会面临可获取的数据量不多的问题,而生物信息学就是这样的一个领域。生物信息学相关数据的样本量有限,而且往往样本正反例不平衡,主要为正例样本,并且数据的标注成本较高,而迁移学习技术使得在这样的条件下进行机器学习成为了可能。本文主要论述使用迁移学习进行生物信息学研究的可行性、有效性和重要性。

关键词: 生物信息学; 迁移学习

分类
综合技术

Windows安装CUDA和CUDNN运行环境

由于很多同学需要使用Windows系统进行GPU上的计算,比如运行TensorFlow或者Pytorch等,在Windows上正确安装CUDA和CUDNN则成了一个关键的问题。与在Linux上安装的整体流程类似,但是还有一些细节要注意,本文以Windows 10系统为例,进行CUDA环境的安装,并以TensorFlow验证安装的成功。

注:Windows下 TensorFlow的GPU版本最多支持到2.10版本,2.11及以后版本仅支持CPU,如果运行 tf.test.is_gpu_available() 是 False的话,需要注意是否是这种情况。

分类
评论型文章

科技力量是中国抗疫制胜的法宝

       摘要:2020年我们遭受到了新型冠状病毒肺炎疫情的袭击,幸运的是,高新技术为我们中国此次抗击疫情,提供了最先进的、最有力的武器,这是我们战胜疫情的法宝。包括疫情在内,人类战胜大灾大疫等重大突发危机事件,都离不开科学的发展,以及技术的创新。

       关键词:科技力量;抗疫;危机事件

分类
智能语音技术 长期更新的内容

几个免费开源的英文语音数据集

AI柠檬之前发布过一篇总结有哪些开源的中文语音数据集的文章(详见:几个最新免费开源的中文语音数据集),这里我将再总结一些免费开源的英文语音数据集,以方便大家做科研和工程时能够使用到。并且这里列举出的英文语音数据集可以确保能够下载和使用,并且是免费开源的,下载链接见文末。