优化器和主流优化策略 | 鸭梨公共文档

优化器（optimizer）负责优化损失函数计算的误差值。调节可变参数是依据反向传播算法的，反向传播负责将最终的误差反向依次传递到神经网络各层。

而真正实现参数调节原则应该是梯度下降（Gradient Descent）。

假设模型定义为 $y = wx + b$

梯度下降的过程

定义误差函数 $f(y)$ ，而 $y$ 是 $w$ 的函数，所以误差函数也是 $w$ 的函数。

1. 梯度下降

参考知乎 https://zhuanlan.zhihu.com/p/152566066

以均方误差（MSE）为例

J(\theta) = \frac{1}{m}\sum_{i=1}^m\left( x \cdot \theta - y \right)^2

$\theta = (w_1,w_2,\cdots,w_n)$ 为权值。

求梯度 $g = J'(\theta)$ ，步骤

\begin{aligned} \frac{\partial}{\partial\theta_j}J(\theta) = &\ \frac{\partial}{\partial\theta_j}\frac{1}{2}\left( h_{\theta}(x) - y \right)^2 \\ = &\ 2 \cdot \frac{1}{2}\left(h_{\theta}(x) - y\right) \frac{\partial}{\partial\theta_j}\left(h_{\theta}(x) - y\right) \\ = &\ \left(h_{\theta}(x) - y\right) \cdot \frac{\partial}{\partial\theta_j}\left(\sum_{i=1}^{n}\theta_i x_i - y \right) \\ = &\ \left(h_{\theta}(x) - y\right)x_j \end{aligned}

更新参数时只需要

\theta^{(t+1)} = \theta^{(t)} - \alpha \cdot g

然后迭代上述步骤，直到

g < \varepsilon

其中 $\varepsilon$ 是某一个阈值，达到此值代表参数优化的程度已经达到期望。

2. 随机梯度下降

随机梯度下降（SGD）通过使用随机的一组数据进行梯度计算，

3. 批量梯度下降

批量梯度下降（BGD）算法是综合了普通的梯度下降和随机梯度下降的一种折中方法。准确度稍高，速度也稍慢。

4. 动量优化算法

动量优化算法（Momentum）

\begin{aligned} v_t = & \ \gamma v_{t-1} + \eta_t g_t \\ x_t = & \ x_{t-1} - v_t \end{aligned}

超参数 $\gamma \in [0,\ 1)$ ，当 $\gamma = 0$ 时，动量法等价于小批量随机梯度下降。

5. Adagrad 算法

约束学习率，达到足够的迭代周期后会选择更小的学习率。

6. 内斯特洛夫梯度加速算法

内斯特洛夫梯度加速（NAG）是对动量优化算法的进一步改进。

7. AdaDelta 与 RMSProp 算法

与 RMSProp 算法的相同点是状态变量是对平方项 $g_t^2$ 的指数加权移动平均。

n_t = \gamma n_{t-1} + (1 - \gamma)g_t^2

AI 技术合集

Agent 理论

MCP 规范

规范说明：2025-06-18

MCP 客户端功能概述

MCP 服务器功能概述

工具

规范说明：2025-11-25

概述

客户端功能概述

服务器功能概述

AI 绘图

ComfyUI 教程

CUDA

数据分析笔记

深度学习入门

tensorflow-learning

tensorflow-mooc

机器学习基础

提示词工程

机器学习课程

梯度下降的过程

1. 梯度下降

2. 随机梯度下降

3. 批量梯度下降

4. 动量优化算法

5. Adagrad 算法

6. 内斯特洛夫梯度加速算法

7. AdaDelta 与 RMSProp 算法

8. 可变动量估算算法

MCP 规范

规范说明：2025-06-18

MCP 客户端功能概述

MCP 服务器功能概述

工具

规范说明：2025-11-25

概述

客户端功能概述

服务器功能概述

ComfyUI 教程

梯度下降的过程 ​

1. 梯度下降 ​

2. 随机梯度下降 ​

3. 批量梯度下降 ​

4. 动量优化算法 ​

5. Adagrad 算法 ​

6. 内斯特洛夫梯度加速算法 ​

7. AdaDelta 与 RMSProp 算法 ​

8. 可变动量估算算法 ​

梯度下降的过程

1. 梯度下降

2. 随机梯度下降

3. 批量梯度下降

4. 动量优化算法

5. Adagrad 算法

6. 内斯特洛夫梯度加速算法

7. AdaDelta 与 RMSProp 算法

8. 可变动量估算算法