分类
ASRT 后端开发 智能语音技术

Java读取并解析wav格式文件

本文将主要介绍如何使用Java语言读取文件并解析wave格式,并以代码形式进行展开。代码主要包含三个功能类,分别为:Wave、DataParseUtils和Common。

本代码已用于GitHub上开源的ASRT语音识别系统的Java语言SDK项目: https://github.com/nl8590687/ASRT_SDK_Java

分类
ASRT 智能语音技术 长期更新的内容

AI柠檬语音识别学习路径和入门资料推荐

对于刚开始接触语音领域的新人来说,如何学习入门是一个棘手的问题。AI柠檬博主经常在群里遇到询问如何入门语音识别或者有什么语音识别学习资料推荐的问题,那么今天博主就在这里做一些如何入门的介绍和相关资料的推荐吧。(纯干货)

分类
ASRT 智能语音技术

语音声学特征提取:用于ASRT的语谱图特征的算法原理与实现

AI柠檬博主在之前的一篇文章里讲了常见的MFCC、FBank、LogFBank等语音特征提取算法。不过ASRT语音识别系统在声学特征的提取上,使用的既不是大家所熟知的MFCC算法,也不是FBank(或LogFBank)算法,而是一种语谱图特征。不过这种语谱图特征也是AI柠檬博主从MFCC和FBank算法修改而来的,原则是保留更多的原始信息以供神经网络计算,避免经过人工特征设计的滤波器产生大量的信息损失。

分类
智能语音技术

语音声学特征提取:MFCC和LogFBank算法的原理

几乎任何做自动语音识别的系统,第一步就是对语音信号,进行特征的提取。通过提取语音信号的相关特征,有利于识别相关的语音信息,并丢弃携带的其他不相关的所有信息,如背景噪声、情绪等。

       我们都知道,人类说话是通过体内的发声器产生的初始声音,被包括舌头和牙齿在内的其他物体形成的声道的形状进行滤波,从而产生出各种各样的语音的。传统的语音特征提取算法正是基于这一点,通过一些数字信号处理算法,能够更准确地包含相关的特征,从而有助于后续的语音识别过程。常见的语音特征提取算法有MFCC、FBank、LogFBank等。

分类
智能语音技术

还是不会VAD?三分钟看懂语音激活检测方法

首先我们来明确一下基本概念,语音激活检测(VAD, Voice Activation Detection)算法主要是用来检测当前声音信号中是否存在人的话音信号的。该算法通过对输入信号进行判断,将话音信号片段与各种背景噪声信号片段区分出来,使得我们能够分别对两种信号采用不同的处理方法。

分类
学界业界动态 智能语音技术

10分钟标注数据胜过一年前的960h数据,FAIR新研究取得语音识别大进展(模型已开源)

近日,来自 FAIR 的研究者提出结合自训练和无监督预训练执行语音识别任务,证明这两种方法存在互补性,并取得了不错的结果。

来自机器之心翻译,有修改 https://www.jiqizhixin.com/articles/2020-11-05-10

自训练和无监督预训练已经成为使用无标注数据改进语音识别系统的有效方法。但是,我们尚不清楚它们能否学习类似的模式,或者它们能够实现有效结合。

最近,Facebook 人工智能研究院(FAIR)一项研究显示,伪标注和使用 wav2vec 2.0 进行预训练在多种标注数据设置中具备互补性。

只需来自 Libri-light 数据集的 10 分钟标注数据和来自 LibriVox 数据集的 5.3 万小时无标注数据,该方法就能在 Librispeech clean 和 other 测试集上取得 3.0%/5.2% 的 WER(词错率),甚至打败了仅仅一年前的基于 960 个小时标注数据训练的最优系统。在 Librispeech 所有标注数据上训练后,该方法可以达到 1.5%/3.1% 的词错率。

分类
ASRT 智能语音技术

Python复现谷歌SpecAugment数据增强算法

       谷歌在2019年提出了用于语音识别数据增强的SpecAugment算法,基本原理是对频谱图进行各种遮盖,例如横向进行频率范围遮盖,以及纵向进行时间段遮盖,也可以将二者组合起来,如图所示。本文将以代码来介绍在实际应用中如何复现SpecAugment算法,并介绍如何将该代码应用到AI柠檬的ASRT语音识别系统( https://github.com/nl8590687/ASRT_SpeechRecognition )的训练中。

分类
智能语音技术 机器学习及应用

看懂语音识别中CTC解码器的原理,这篇文章就够了

在DNN-HMM架构的语音识别系统的声学模型中,训练一个DNN模型通常需要先进行帧和标签的对齐操作,此时需要先使用GMM通过EM算法不断迭代实现。而且隐马尔可夫假设一直饱受诟病,随着深度学习的发展,尤其是基于CTC的CNN和RNN模型的出现,使得实现端到端的语音识别声学模型成为了可能。CTC由于其强大的在时间序列上进行标签自动对齐的能力,可被用于语音识别、图像验证码(或者文本)识别和视频手势识别(手语识别)等问题中。

分类
ASRT 智能语音技术

ASRT开放免费测试版公共API

ASRT语音识别项目现在已经开放免费测试版的公共API调用接口了,欢迎大家使用Demo客户端或客户端SDK进行调用测试,测试用API的接口链接:https://api.ailemon.net/asrt/v1/ ,详细使用方法请查看ASRT项目文档内容( https://asrt.ailemon.net/docs/ )。由于目前部署的API服务器的硬件配置性能和网络性能有限,请使用ASRT的Demo客户端或者客户端SDK,在正常使用情况下进行测试,避免高并发调用,以防止服务器负载过高。

分类
ASRT 智能语音技术 生活点滴 软件开发

AI柠檬网站上线站内搜索引擎,支持语音搜索

近日,AI柠檬网站上线了站内搜索引擎,并且支持语音搜索功能,以方便一个地方即可搜索包括AI柠檬的中文博客、英文博客和ASRT语音识别项目网站和文档等所有站点页面,大大优化了用户体验。搜索网站地址为:https://s.ailemon.net/ ,也可通过中文博客底部的搜索框进行搜索。打开后,直接在搜索框中输入文本即可,或点击“话筒”图标,说话完毕后,再次点击即可直接跳转到搜索结果页面。其中,语音搜索功能由ASRT中文语音识别项目实现和驱动。