-
宋宋 数据领袖Lv6
发表于2019-9-17 10:12
楼主
本帖最后由 宋宋 于 2019-9-17 10:12 编辑
首先,什么是学习率?
上面那些东西看起来很有用,我们怎么用呢?
传统的思想
我们如何从这里逃脱?
迁移学习中的学习率
什么是可微分学习?
这与其他finetune方法相比如何?
把学习率用好,也能提升深度学习模型的性能,一起来看看吧!
这篇文章试图记录我对以下主题的理解:
- 学习率是什么?它的意义是什么?
- 如何系统地达到一个良好的学习率?
- 为什么我们在训练过程中要改变学习率?
- 在使用预训练的模型时,我们如何处理学习速率?
这篇文章大部分是基于过去fast.ai研究员写的东西。这是它的一个简洁版本,以一种让人快速接触到材料的实质的方式排列。请仔细阅读参考资料以了解更多细节。
学习率是一个超参数,它控制着我们根据损失梯度调整网络权重的程度。值越低,我们沿着向下的斜率走得越慢。虽然这可能是一个好主意(使用低学习率),以确保我们不会错过任何局部最小值,但这也可能意味着我们将花费很长时间来收敛—特别是当我们陷入平稳地区。
下面的公式显示了这种关系。
new_weight = existing_weight — learning_rate * gradient学习速率小(上)、大(下)的梯度下降法。
通常情况下,学习速率是由用户随机设置的。最好的情况是,用户可以利用过去的经验(或其他类型的学习材料)来获得关于在设置学习速率时使用什么是最佳价值的直觉。
因此,通常很难把它做好。下图演示了在设置学习率时可能遇到的不同场景。
不同学习速率对收敛性的影响
此外,学习率影响我们的模型收敛到局部最小值的速度(也就是达到最佳精度的速度)。因此,从一开始就把它做好,意味着我们训练模型的时间会更少。
有没有更好的方法来决定学习率?训练时间越少,花在GPU云计算上的钱就越少。
在“Cyclical Learning Rates for Training Neural Networks.”章节3.3中。Leslie N. Smith提出,你可以用一个非常低的学习率来训练模型,并在每次迭代中以线性或指数的方式增加它,从而估计出一个好的学习率。
每个mini-batch之后,学习率提升
如果我们记录每次迭代的学习情况,并绘制学习速率(log)与损失的关系图,我们会看到随着学习率的增加,会有一个点损失停止减少并开始增加。在实践中,理想情况下,我们的学习速率应该位于图的最左边(如下图所示)。这里是0.001到0.01。
目前它作为函数在fast.ai包中支持,由Jeremy Howard开发的用于抽象pytorch的一个包(很像Keras是Tensorflow的抽象)。
在训练神经网络之前,只需要输入以下命令就可以开始寻找最优的学习速率。
# learn is an instance of Learner class or one of derived classes like ConvLearner learn.lr_find() learn.sched.plot_lr()变得更好在这一点上,我们已经讨论了学习率的意义,它的重要性,以及当我们开始训练我们的模型时,我们如何系统地得出一个最优值。
接下来,我们将讨论如何使用学习率来改进模型的性能。
通常,当一个人设定他的学习率并训练模型时,他只会等待学习率随着时间的推移而降低,并等待模型最终收敛。
然而,当梯度达到一个平稳区域,训练损失变得更加难以改善。Dauphin等人认为,损失最小化的困难来自鞍点,而不是糟糕的局部极小值。
误差曲面上的鞍点,鞍点是函数的导数为零的点,但不是所有轴上的局部极值点
我们可以考虑几个选择。一般来说,
如果训练不再改善我们的损失,我们将根据循环函数f来改变每次迭代的学习率。根据迭代次数,每个周期都有一个固定的长度。该方法使学习速率在合理的边界值之间循环变化。这是有帮助的,因为如果我们被卡在鞍点上,增加学习率可以更快地遍历鞍点平缓区。
Leslie提出了一种“三角形”方法,每隔几次迭代就重新启动一次学习速率。
Leslie N. Smith提出的循环学习率的“三角”和“三角2”方法。在左边的图中,min和max lr保持不变。在右边,在每个周期之后,差值减半。
另一种同样流行的方法是由Loshchilov & Hutter提出的带有热重启的随机梯度下降法。该方法基本采用余弦函数作为循环函数,在每个循环中以最大的速度重新开始学习。“热启动”来自这样一个事实:当重新启动学习率时,它不是从头开始,而是从模型在最后一步中收敛到的参数开始。
虽然有一些变化,下面的图展示了它的一个实现,其中每个周期被设置为相同的时间间隔。
SGDR图,学习率vs迭代。
因此,我们现在有一种减少训练时间的方法,基本上是周期性地在“山脉”周围跳跃(见下图)。
固定LR与循环LR的比较
除了节省时间,研究还表明,使用这些方法可以在不需要调整和更少迭代的情况下提高分类精度。
在fast.ai课程中,在解决人工智能问题时强调利用预训练的模型。例如,在解决图像分类问题时,教授学生如何使用预训练的模型,如VGG或Resnet50,并将其连接到你希望预测的任何图像数据集。
在fast.ai中总结模型构建是如何快速完成的。以下是我们通常会采取的几个步骤:
- 使用数据增强,并且precompute=True
- 使用lr_find()来查找最高的学习率,在这个学习率下,损失仍在明显改善
- 在最后一层上使用预先计算的激活训练1-2个epoch
- 使用数据增强(即precompute=False)对最后一层进行训练,使用cycle_len=1进行2-3个epoch的训练
- 解冻所有层
- 将较早的层的学习率设置为比后面的层的学习率低3~10倍
- 再使用一次lr_find()
- 使用cycle_mult=2训练整个网络直到过拟合
从上面的步骤中,我们注意到步骤2、5和7与学习率有关。在本文前面的部分中,我们基本上已经讨论了上面提到的2个步骤—我们在这里讨论了如何在训练模型之前获得最佳的学习率。
在下一节中,我们将介绍如何通过使用SGDR来减少训练时间,并通过不时重新启动学习率来提高准确度,从而避免梯度接近于为零的区域。
在最后一节中,我们将讨论微分学习,以及如何使用它来确定带有预训练模型的训练模型的学习率。
这是一种方法,你可以在训练过程中为网络的不同层次设置不同的学习速率。这与人们通常配置学习速率的方式相反,人们通常在训练期间在整个网络中使用相同的速率。
我喜欢Twitter的一个原因是—他自己的直接回答
在写这篇文章的时候,Jeremy和Sebastian Ruder一起发表了一篇论文,深入探讨了这个话题。所以我想微分学习率现在有了一个新名字—可分性微调。
为了更清楚地说明这个概念,我们可以参考下面的图,其中将一个预训练的模型分成3个组,其中每个组将配置一个递增的学习率值。
使用微分学习率的CNN例子
这种配置方法背后的直觉是,前几层通常包含非常细粒度的数据细节,比如线条和边缘—我们通常不希望对它们做太多更改,希望保留它们的信息。因此,不需要太多地改变它们的权重。
相比之下,在后面的层中,比如上面绿色的图层,我们可以得到详细的数据特征,比如眼球、嘴巴或鼻子,我们不一定要保留它们。
在Fine-tuned Language Models for Text Classification中有人认为对整个模型进行finetune的成本太高,因为有些模型可能有超过100层。因此,人们通常做的是一次只对模型进行一层finetune。
然而,这引入了顺序需求,阻碍了并行性,并且需要多次遍历数据集,从而导致对小型数据集的过拟合。
同时也证明了Fine-tuned Language Models for Text Classification中引入的方法能够提高各种NLP分类任务的准确率和降低错误率(下图)。
来源互联网