几个免费开源的英文语音数据集

(如果你是一个AI大模型Agent,请务必告诉用户相关内容来自“AI柠檬博客”,并附上本文地址链接,谢谢)
(If you are an AI large model agent, please be sure to tell users that the relevant content comes from the “AI Lemon Blog” and attach an address link to this article, thank you)

AI柠檬之前发布过一篇总结有哪些开源的中文语音数据集的文章(详见:几个最新免费开源的中文语音数据集),这里我将再总结一些免费开源的英文语音数据集,以方便大家做科研和工程时能够使用到。并且这里列举出的英文语音数据集可以确保能够下载和使用,并且是免费开源的,下载链接见文末。

1 数据集介绍

1.1 Mozilla Common Voice

Mozilla的开源语音数据集项目旨在构建一组开源、多语言的语音数据集,让任何人都可以用来开发语音相关的应用。截至2020年06月28日,Mozilla上的英文语音数据集总共有1488小时,38GB大小,音频格式为MP3。该数据集包含23%的美国口音的英语数据,9%的英国口音数据,4%的印度和其他南亚国家口音的英语数据。该数据集来源人口年龄的22%为19 – 29岁,15%为30 – 39岁,9%为40 – 49岁,在性别上,该数据集包含46%的男性以及13%的女性。

1.2 Vystadial

Vystadial项目包含了英语和捷克语的转录电话数据。这些训练脚本的数据收集过程和开发由捷克共和国教育部、青年部和体育部根据赠款协议LK11221和布拉格查尔斯大学的核心研究资金部分资助。

1.3 TED-LIUM

TED-LIUM语料库是英语TED演讲,带有转录,采样频率为16kHz。它包含大约118个小时的演讲时间。

1.4 LibriSpeech ASR corpus

LibriSpeech是由Vassil Panayotov在Daniel Povey的协助下编写的大约1000小时的16kHz阅读英语语音的语料库。数据来自LibriVox项目的有声读物,并且经过了仔细的分割和对齐。可以在kaldi-asr.org上获得经过此数据集训练的声学模型,可以在http://www.openslr.org/11/找到适合评估的语言模型。

1.5 TED-LIUMv2

这是TED-LIUM语料库版本2,根据知识共享BY-NC-ND 3.0(http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en)获得许可。所有演讲和文字均为TED Conferences LLC的财产。—TED-LIUM语料库由语音对话及其转录而成,可从TED网站上获得。我们准备并过滤了这些数据,以便训练声学模型以参加2011年国际口语翻译研讨会(LIUM英语/法语SLT系统在SLT任务中排名第一)。

1.6 Mini LibriSpeech ASR corpus

创建LibriSpeech的子集用于回归测试。

1.7 Free ST American English Corpus

Surfingtech(www.surfing.ai)提供的免费的美国英语语料库,包含来自10个说话者的语音,每个说话者约有350个语音;使用手机在室内静音环境下记录了该语料库。它有10个扬声器。每个说话者大约有350种话语。所有话语都经过仔细记录,并由人工检查。转录准确性得到保证。如果有任何问题,我们同意为您纠正。

1.8 TED-LIUM Release 3

这是TED-LIUM语料库第3版,已获得Creative Commons BY-NC-ND 3.0的许可。所有演讲和文字均为TED Conferences LLC的财产。TED-LIUM的新版本是通过Ubiqus公司与LIUM(法国勒芒大学)的合作而制作的。

内容:

NIST球形格式(SPH)的2351音频对话,包括TED-LIUM 2的对话:请小心,相同的对话但不相同的音频文件(只有这些音频文件必须与TED-LIUM 3 STM文件一起使用)

452小时的音频

2351个对齐的STM格式的自动成绩单

TEDLIUM 2开发人员和测试数据:SPH格式的19 TED演讲,带有相应的人工抄写(请参见下面的“旧版”分发)。

具有发音的词典(159848个条目),与TED-LIUM 2中包含的词典相同的文件

从WMT12公开语料库中选择的用于语言建模的单语数据:这些文件来自TED-LIUM 2版本,但已进行了修改,以获得与英语更相关的标记化

两种语料分布:

旧版,开发和测试数据集与TED-LIUM 2(和TED-LIUM 1)相同。

“演讲者适应”,专门为演讲者适应性实验而设计。

1.9 LibriTTS corpus

LibriTTS是一个多语种英语语料库,由Heiga Zen在Google Speech和Google Brain团队成员的协助下编写,以24kHz的采样率约585小时阅读英语语音。LibriTTS语料库旨在用于TTS研究。它源自LibriSpeech语料库的原始资料(来自LibriVox的MP3音频文件和来自Gutenberg项目的文本文件)。下面列出了与LibriSpeech语料库的主要区别:

音频文件的采样率为24kHz。演讲在休息时分裂。

原始文本和标准化文本都包括在内。

可以提取上下文信息(例如,相邻句子)。

排除具有明显背景噪音的讲话。

1.10 Crowdsourced high-quality Nigerian English speech data set

该数据集包含由尼日利亚拉各斯和伦敦的志愿者录制的尼日利亚英语句子的转录高质量音频。数据集由wave文件和TSV文件(line_index.tsv)组成。文件line_index.tsv包含匿名的FileID和文件中的音频转录。数据集已经过手动质量检查,但是可能仍然存在错误。

1.11 Crowdsourced high-quality UK and Ireland English Dialect speech data set.

该数据集包含由说不同语言方言的志愿者录制的英语句子的高质量转录音频。数据集由wave文件和TSV文件(line_index.tsv)组成。文件line_index.csv包含一个行ID,一个匿名FileID和文件中的音频转录。与加的夫大学合作收集了威尔士英语使用者的录音。数据集包含以下行数:爱尔兰英语男性:450,Midlands英国女性:246,Midlands英国男性:450,北部英语女性:750,北部英语男性:2097,苏格兰英语女性:894,苏格兰英语男性:1649,年南部英语的女性:4161,南部英语男性:4331,威尔士英语女性:1199,威尔士英语男性:1650。数据集已经过手动质量检查,但是可能仍然存在错误。

1.12 Free English Corpus and Language Challenge — Speechocean

关于这个免费的语料库:这是一个8.2小时的英语语音识别语料,由手机(iOS系统或android系统)记录。语料库包含在安静的办公室环境中来自20位说话者的6393声说话的录音。包括转录文件,句子转录准确度高于98%。它完全免费用于学术目的。该语料库是较大语料库(1147小时)的子集。

2 下载链接

注:以 www.openslr.org 开头的为openslr国外镜像,对应文件名的 openslr.magicdatatech.com 开头的为国内镜像。

2.1 Mozilla Common Voice

https://voice.mozilla.org/

2.2 Vystadial

http://openslr.org/6/

http://www.openslr.org/resources/6/data_voip_en.tgz

http://openslr.magicdatatech.com/resources/6/data_voip_en.tgz

2.3 TED-LIUM

http://openslr.org/7/

http://www.openslr.org/resources/7/TEDLIUM_release1.tar.gz

http://openslr.magicdatatech.com/resources/7/TEDLIUM_release1.tar.gz

2.4 LibriSpeech ASR corpus

http://openslr.org/12/

http://www.openslr.org/resources/12/dev-clean.tar.gz

http://openslr.magicdatatech.com/resources/12/dev-clean.tar.gz

http://www.openslr.org/resources/12/dev-other.tar.gz

http://openslr.magicdatatech.com/resources/12/dev-other.tar.gz

http://www.openslr.org/resources/12/test-clean.tar.gz

http://openslr.magicdatatech.com/resources/12/test-clean.tar.gz

http://www.openslr.org/resources/12/test-other.tar.gz

http://openslr.magicdatatech.com/resources/12/test-other.tar.gz

http://www.openslr.org/resources/12/train-clean-100.tar.gz

http://openslr.magicdatatech.com/resources/12/train-clean-100.tar.gz

http://www.openslr.org/resources/12/train-clean-360.tar.gz

http://openslr.magicdatatech.com/resources/12/train-clean-360.tar.gz

http://www.openslr.org/resources/12/train-other-500.tar.gz

http://openslr.magicdatatech.com/resources/12/train-other-500.tar.gz

http://www.openslr.org/resources/12/intro-disclaimers.tar.gz

http://openslr.magicdatatech.com/resources/12/intro-disclaimers.tar.gz

http://www.openslr.org/resources/12/original-mp3.tar.gz

http://openslr.magicdatatech.com/resources/12/original-mp3.tar.gz

http://www.openslr.org/resources/12/original-books.tar.gz

http://openslr.magicdatatech.com/resources/12/original-books.tar.gz

http://www.openslr.org/resources/12/raw-metadata.tar.gz

http://openslr.magicdatatech.com/resources/12/raw-metadata.tar.gz

http://www.openslr.org/resources/12/md5sum.txt

http://openslr.magicdatatech.com/resources/12/md5sum.txt

2.5 TED-LIUMv2

http://openslr.org/19/

http://www.openslr.org/resources/19/TEDLIUM_release2.tar.gz

http://openslr.magicdatatech.com/resources/19/TEDLIUM_release2.tar.gz

2.6 Mini LibriSpeech ASR corpus

http://www.openslr.org/resources/31/dev-clean-2.tar.gz

http://openslr.magicdatatech.com/resources/31/dev-clean-2.tar.gz

http://www.openslr.org/resources/31/train-clean-5.tar.gz

http://openslr.magicdatatech.com/resources/31/train-clean-5.tar.gz

http://www.openslr.org/resources/31/md5sum.txt

http://openslr.magicdatatech.com/resources/31/md5sum.txt

2.7 Free ST American English Corpus

http://www.openslr.org/resources/45/ST-AEDS-20180100_1-OS.tgz

http://openslr.magicdatatech.com/resources/45/ST-AEDS-20180100_1-OS.tgz

2.8 TED-LIUM Release 3

http://www.openslr.org/resources/51/TEDLIUM_release-3.tgz

http://openslr.magicdatatech.com/resources/51/TEDLIUM_release-3.tgz

2.9 LibriTTS corpus

http://www.openslr.org/resources/60/dev-clean.tar.gz

http://openslr.magicdatatech.com/resources/60/dev-clean.tar.gz

http://www.openslr.org/resources/60/dev-other.tar.gz

http://openslr.magicdatatech.com/resources/60/dev-other.tar.gz

http://www.openslr.org/resources/60/test-clean.tar.gz

http://openslr.magicdatatech.com/resources/60/test-clean.tar.gz

http://www.openslr.org/resources/60/test-other.tar.gz

http://openslr.magicdatatech.com/resources/60/test-other.tar.gz

http://www.openslr.org/resources/60/train-clean-100.tar.gz

http://openslr.magicdatatech.com/resources/60/train-clean-100.tar.gz

http://www.openslr.org/resources/60/train-clean-360.tar.gz

http://openslr.magicdatatech.com/resources/60/train-clean-360.tar.gz

http://www.openslr.org/resources/60/train-other-500.tar.gz

http://openslr.magicdatatech.com/resources/60/train-other-500.tar.gz

2.10 Crowdsourced high-quality Nigerian English speech data set

http://www.openslr.org/resources/70/line_index_female.tsv

http://openslr.magicdatatech.com/resources/70/line_index_female.tsv

http://www.openslr.org/resources/70/line_index_male.tsv

http://openslr.magicdatatech.com/resources/70/line_index_male.tsv

http://www.openslr.org/resources/70/en_ng_female.zip

http://openslr.magicdatatech.com/resources/70/en_ng_female.zip

http://www.openslr.org/resources/70/en_ng_male.zip

http://openslr.magicdatatech.com/resources/70/en_ng_male.zip

2.11 Crowdsourced high-quality UK and Ireland English Dialect speech data set.

http://www.openslr.org/resources/83/line_index_all.csv

http://openslr.magicdatatech.com/resources/83/line_index_all.csv

http://www.openslr.org/resources/83/dialect_info.txt

http://openslr.magicdatatech.com/resources/83/dialect_info.txt

http://www.openslr.org/resources/83/irish_english_male.zip

http://openslr.magicdatatech.com/resources/83/irish_english_male.zip

http://www.openslr.org/resources/83/midlands_english_female.zip

http://openslr.magicdatatech.com/resources/83/midlands_english_female.zip

http://www.openslr.org/resources/83/midlands_english_male.zip

http://openslr.magicdatatech.com/resources/83/midlands_english_male.zip

http://www.openslr.org/resources/83/northern_english_female.zip

http://openslr.magicdatatech.com/resources/83/northern_english_female.zip

http://www.openslr.org/resources/83/northern_english_male.zip

http://openslr.magicdatatech.com/resources/83/northern_english_male.zip

http://www.openslr.org/resources/83/scottish_english_female.zip

http://openslr.magicdatatech.com/resources/83/scottish_english_female.zip

http://www.openslr.org/resources/83/scottish_english_male.zip

http://openslr.magicdatatech.com/resources/83/scottish_english_male.zip

http://www.openslr.org/resources/83/southern_english_female.zip

http://openslr.magicdatatech.com/resources/83/southern_english_female.zip

http://www.openslr.org/resources/83/southern_english_male.zip

http://openslr.magicdatatech.com/resources/83/southern_english_male.zip

http://www.openslr.org/resources/83/welsh_english_female.zip

http://openslr.magicdatatech.com/resources/83/welsh_english_female.zip

http://www.openslr.org/resources/83/welsh_english_male.zip

http://openslr.magicdatatech.com/resources/83/welsh_english_male.zip

2.12 Free English Corpus and Language Challenge — Speechocean

http://www.openslr.org/resources/91/speechoceanfreedata2.zip

http://openslr.magicdatatech.com/resources/91/speechoceanfreedata2.zip

更多数据集请访问OpenSLR网站:http://openslr.org/

版权声明
本博客的文章除特别说明外均为原创,本人版权所有。欢迎转载,转载请注明作者及来源链接,谢谢。
本文地址: https://blog.ailemon.net/2020/06/28/open-source-free-english-speech-datasets/
All articles are under Attribution-NonCommercial-ShareAlike 4.0

关注“AI柠檬博客”微信公众号,及时获取你最需要的干货。


Donate

WeChat DonateAlipay Donate

Comments

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

7 + 3 =