AI柠檬

一个科技爱好者的个人博客

标签：深度学习

如何解决神经网络训练时loss不下降的问题

浏览量： 212,615
当我们训练一个神经网络模型的时候，我们经常会遇到这样的一个头疼的问题，那就是，神经网络模型的loss值不下降，以致我们无法训练，或者无法得到一个效果较好的模型。导致训练时loss不下降的原因有很多，而且，更普遍的来说，loss不下降一般分为三种，即：训练集上loss不下降，验证集上loss不下降，和测试集上loss不下降。这里，首先默认各位都能理解过拟合和欠拟合的概念，如果有不清楚的可以参考下面的一些文章。

（更多…）

2019-02-26
浅谈深度学习:如何计算模型以及中间变量的显存占用大小
浏览量： 6,448
前言

亲，显存炸了，你的显卡快冒烟了！
```
torch.FatalError: cuda runtime error (2) : out of memory at /opt/conda/conda-bld/pytorch_1524590031827/work/aten/src/THC/generic/THCStorage.cu:58
```
想必这是所有炼丹师们最不想看到的错误，没有之一。

OUT OF MEMORY，显然是显存装不下你那么多的模型权重还有中间变量，然后程序奔溃了。怎么办，其实办法有很多，及时清空中间变量，优化代码，减少batch，等等等等，都能够减少显存溢出的风险。

但是这篇要说的是上面这一切优化操作的基础，如何去计算我们所使用的显存。学会如何计算出来我们设计的模型以及中间变量所占显存的大小，想必知道了这一点，我们对自己显存也就会得心应手了。

本文转载自：Oldpan的个人博客
浅谈深度学习:如何计算模型以及中间变量的显存占用大小（https://oldpan.me/archives/how-to-calculate-gpu-memory）

（更多…）
2018-09-03
深度学习：基于keras的mnist手写数字识别

浏览量： 2,680
在深度学习方面，Keras提供了这样一个能够非常方便地搭建神经网络的工具，而且很容易快速上手。mnist手写数字识别是神经网络入门后的一个非常容易上手做的一个程序，尤其是在使用了深度学习框架后，不论是DNN还是CNN，都很简单。这篇文章里，我将介绍一下，使用keras实现mnist手写数字识别的程序。通过这篇文章，你应该就能够学会如何通过keras搭建自己的神经网络了。

（更多…）

2018-05-11
深度学习：欠拟合问题的几种解决方案

浏览量： 48,658
我最近做深度学习在连续中文语音识别方向的应用的时候，根据一些论文和网上一些公开代码和模型结构，设计了一个神经网络的模型。但是在训练的时候，就首先遇到了很让人头疼的欠拟合问题。神经网络欠拟合的特征是，训练了很长时间，但是在训练集上，loss值仍然很大甚至与初始值没有太大区别，而且精确度也很低，几乎接近于0，在测试集上亦如此。且先不管模型结构配置的优劣，就欠拟合问题来说，需要从如下方面来着手。

（更多…）

2018-04-09