AI柠檬

一个科技爱好者的个人博客

作者： AI柠檬博主

机器学习：梯度下降算法是如何工作的

浏览量： 4,341
在进行机器学习的时候，我们常常要使用到各种各样的优化算法，以此使得模型能够尽可能收敛到最优的解，而梯度下降(Gradient Descent)算法就是这样的一种无约束的一阶优化算法，并且，根据算法的确定性和随机性，可分为批量梯度下降法和随机梯度下降法。

（更多…）

2019-10-21
ASRT语音识别程序依赖环境说明

浏览量： 1,533
ASRT语音识别项目是AI柠檬博主于2017年初开始着手实现的一个开源项目。由于本项目从最初第一个可用版发布到现在已经有较长时间了，在软件的依赖包方面，已经与两年前有了很大的不同，本文将介绍ASRT项目在程序运行的依赖环境上的一些问题，供参考，如果后续有变化，会及时更新。几乎所有基于TensorFlow 1.x版本和Keras的程序都可以参考本文的配置。

（更多…）

2019-10-17
机器学习：感知机模型

浏览量： 1,331
感知机(perceptron)是线性二分类模型，输入是实例的特征向量，输出是用“+1”和“-1”表示的实例类别。AI柠檬曾在两年半前的文章中，详细介绍过机器学习中的逻辑斯蒂回归模型，它是感知机模型的一种变种。作为判别模型，感知机将实例用一个超平面划分为正负两类，是神经网络和支持向量机的基础。

（更多…）

2019-10-09
使用N-DenseNet实现城市声音事件分类模型

浏览量： 808
现代社会中，智慧城市的构建是一个当前的趋势，其中包括利用传感器网络收集目标城市的城市声音时间的信息采集和分类研究用相关音频数据并进行分析，这对于是提高智能感知水平的重要一步。来自江南大学的一研究团队，通过采用N-DenseNet网络模型，实现了对城市声音事件的分类，其一阶和二阶模型的分类准确率达到了83.63%和81.03%，并且具有良好的泛化能力。

（更多…）

2019-09-04
Docker介绍

浏览量： 480
在服务器端上线并提供一项软件服务的时候，最常见的方式是手工部署安装运行相关的服务软件（比如网站）。如果仅仅是部署一次就长期使用下去还好，但是如果需要在多台机器上批量部署，或者每过一段时间就有服务迁移的可能的情况下，如果配置非常的繁琐或耗时，数据配置迁移和升级维护过程较复杂，批安装量较大，以及不同的机器上的基础运行环境存在差异，那么使用Docker来统一进行安装和维护则是比较明智的选择。使用Docker安装，只需要在安装好docker软件后，使用一个相应的配置文件，即可快速批量完成服务的安装。

（更多…）

2019-08-28
[翻译]Deep Speech：中文和英文中的端到端的语音识别

浏览量： 3,849
本文翻译自百度Deep Speech 论文

原文：
https://openreview.net/forum?id=XL9vPjMAjuXB8D1RUG6L

百度研究院 – 硅谷AI实验室
Dario Amodei, Rishita Anubhai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro,
Jingdong Chen, Mike Chrzanowski, Adam Coates, Greg Diamos, Erich Elsen, Jesse Engel,
Linxi Fan, Christopher Fougner, Tony Han, Awni Hannun, Billy Jun, Patrick LeGresley,
Libby Lin, Sharan Narang, Andrew Ng, Sherjil Ozair, Ryan Prenger, Jonathan Raiman,
Sanjeev Satheesh, David Seetapun, Shubho Sengupta, Yi Wang, Zhiqian Wang, Chong Wang, Bo Xiao, Dani Yogatama, Jun Zhan, Zhenyao Zhu

（更多…）

2019-08-20
Python实现录音和播放功能

浏览量： 3,400
我们在需要跟用户使用语音进行交互的场景中，经常需要使用到录音的功能，比如网络语音通话和语音助手等，而完整的从底层实现录音功能往往是相当困难的，通常通过调用相关API来实现。这里我们介绍一种使用Python(3.x)中的PyAudio软件包来实现录音的方法。

（更多…）

2019-08-13
AI柠檬新版个人主页上线：采用极简瀑布流布局模板

浏览量： 347
昨日，AI柠檬正式将新版个人主页上线部署，使用更简洁清新的主题替换了使用两年半的扁平彩色方格主题页面，美观度MAX。新版个人主页基于Spring MVC架构，采用Java语言和JSP技术设计开发，并使用Apache Tomcat + Nginx服务器进行部署，不再是简单纯HTML的静态网站。后续还将根据需要对网站进行版本迭代，在个人主页功能的基础上开发一系列周边功能。

（更多…）

2019-07-31
MCNN-CTC：将语音识别错误率再降12%

浏览量： 1,441
近些年来，随着深度学习的发展，语音识别的准确率已经达到较高水平。卷积神经网络的应用，对于语音识别系统准确率的提升起了至关重要的作用。虽然普通的深度卷积神经网络，随着深度的增加，准确率应该会有所提升，但是其在宽度上的限制，使得其可能无法捕捉到人类语音信号中足够的信息。近日，江南大学一团队提出了深度多路卷积神经网络MCNN-CTC模型，在没有语言模型的情况下，可将端到端声学模型的错误率相比DCNN-CTC模型下降1.10%-12.08%，并有着更好的性能。相关论文发表在Intelligent Robotics and Applications 2019。

（更多…）

2019-07-25
[翻译]使用CTC进行序列建模

浏览量： 8,790
原文：https://distill.pub/2017/ctc/

Hannun A. Sequence modeling with ctc[J]. Distill, 2017, 2(11): e8.

下面是连结时序分类(CTC)的一个可视化指导图，CTC是一种用于在语音识别，手写识别和其他序列问题中训练深度神经网络的算法。

CTC的工作原理

（更多…）

2019-07-18