工欲善其事必先利其器,做机器学习,我们需要有利器,才能完成工作,数据就是我们最重要的利器之一。做中文语音识别,我们需要有对应的中文语音数据集,以帮助我们完成和不断优化改进项目。我们可能很难拿到成千上万小时的语音数据集,但是这里有一些免费开源的语音数据集,大家一定不要错过。文末附数据集下载地址。我们也非常感谢相关单位和团体为国内的开源界做出的贡献。
共20份数据集,2022年5月6日持续更新~
一个科技爱好者的个人博客
工欲善其事必先利其器,做机器学习,我们需要有利器,才能完成工作,数据就是我们最重要的利器之一。做中文语音识别,我们需要有对应的中文语音数据集,以帮助我们完成和不断优化改进项目。我们可能很难拿到成千上万小时的语音数据集,但是这里有一些免费开源的语音数据集,大家一定不要错过。文末附数据集下载地址。我们也非常感谢相关单位和团体为国内的开源界做出的贡献。
共20份数据集,2022年5月6日持续更新~
写在前面:本文是从作者在某大学提交的一份专业报告中的主要内容修改而来,由于作者觉得具有一定的现实意义,故发布出来。
近年来,越来越多的人们,无处不谈人工智能,不论是在大街上,还是媒体上,或者社交软件上。仿佛,我们突然经过了一个人工智能时代开始的时间节点,任何事情,加入了人工智能,就立即变得高端了起来。中国的多所一流大学,自2017年的中国科学院大学和西安电子科技大学先后成立人工智能学院以来,在2018年,包括清华在内,也纷纷成立人工智能学院,掀起了一股“成立人工智能学院”的浪潮。不过,人工智能是建立在计算机科学、应用数学、统计学等多学科交叉的基础之上的,其中,计算机科学是关键,是人工智能的灵魂,是实现我们未来智能生活的工具。而大学中,计算机软件方面的课程,尤其是程序设计和算法,是未来人工智能时代,AI人才培养的基础。
AI柠檬博客从2017年年初开服,到现在已经一年半多啦,博客经过发展,迈过了必经的几道坎,现在正式决定开放访客投稿。我作为一个个人博客的博主,很欢迎各位想让自己的文章被更多人看到的朋友们,将自己的原创文章投稿在这里。(^_^)
在数据结构中,存在着线性结构和非线性结构两种,而树型结构就是其中的一种非线性结构,最常用的有树和二叉树。树是一种以分支关系定义的层次结构,其实例广泛存在与人类的社会生活中的方方面面,比如社会组织机构中的层次关系等。在计算机领域中,树在编译程序、数据库系统中,也有着很重要的应用。
经过为期一年半的博客运行,继开通Twitter账号、知乎专栏之后,AI柠檬又要在又一个新的平台上跟各位见面啦。微信公众号搜索“AI柠檬博客”或者微信号“ailemon_me”,点击关注即可,二维码在文章末尾。本公众号将不定期更新发布本博客的文章,或者新文章发布的通知。
ASRT是一套基于深度学习实现的语音识别系统,全称为Auto Speech Recognition Tool,由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型,在Windows平台上实现了一个基于ASRT的语音识别应用软件,取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用,也一起开源在GitHub上了。