Jacobian矩阵和Hessian矩阵 | YelloooBlue Blog 博客

type

Post

status

Published

date

Jun 25, 2025

slug

summary

📝 主旨内容

情况讨论

引用的话语

想要理解Jacobian矩阵和Hessian矩阵首先得了解他们的应用场景和作用。以下我们讨论几种函数类型。

单变量单输出函数（标量函数的标量导数）

多变量单输出函数（多维输入对应标量输出）

多变量多输出函数（多维输入对应多维。输出）

函数类型	雅可比矩阵维度	Hessian 矩阵维度
单输入单输出	1×1（标量）	1×1（标量）
多输入单输出	1×n（行向量）	n×n
单输入多输出	m×1（列向量）	不适用（需二阶导数）
多输入多输出	m×n	每个输出分量对应 n×n

对比维度	黑塞矩阵（Hessian）	雅可比矩阵（Jacobian）
函数类型	仅适用于多输入单输出（f:Rn→R）	适用于任意输入输出维度（f:Rn→Rm）
导数阶数	二阶偏导数	一阶偏导数
矩阵维度	n×n（n 为输入维度）	m×n（m 为输出维度，n 为输入维度）
对称性	若二阶导数连续则为对称矩阵	无对称性要求
几何意义	描述函数的局部曲率（如凸性、极值性质）	描述函数的局部线性变换（如梯度方向、导数向量）

💡

为什么Hessian仅适用于多输入单输出？

其实多输出也可以，但是就不是“矩阵“了，而是矩阵的堆叠

对比维度	雅可比矩阵（一阶导数）	黑塞矩阵（二阶导数）
导数阶数	一阶（仅一次求导）	二阶（两次求导）
输入变量关联	每个元素仅关联 1 个输入变量	每个元素关联 2 个输入变量（顺序相关）
数学结构	向量（维度 = 输入维度 n）	矩阵（维度 = n×n）
几何意义	函数在各输入方向的变化率（梯度）	函数在各方向的曲率变化（二次近似）

Jacobian矩阵

定义

设函数，即输入是n维向量，输出是m维向量。

其雅可比矩阵是一个「m*n」的矩阵，元素为：其中每一行是输出向量的 m 个分量函数。

💡

Jacobian矩阵只有在「多输入多输出」的情况下才是“矩阵”

不同情况下的Jacobian矩阵的退化形态

雅可比“矩阵”也可以是“标量”或“向量”

多输入单输出函数（）

例如：损失函数，梯度下降

当函数输出为标量时，雅可比矩阵退化为「1行n列」的矩阵，即一个行向量：

这正是函数的梯度（Gradient）。

单输入多输出函数（）

当函数输入为标量时，雅可比矩阵退化为「m行1列」的矩阵，即 列向量：

这是输出向量对输入x的导数向量。

单输入单输出（）

此时函数的雅可比矩阵退化为「1×1」矩阵，即标量，也就是普通的导数。

雅可比矩阵的潜在意义

几何意义

雅可比矩阵描述了函数在局部的「线性近似」，其维度反映了输入空间与输出空间的映射关系。

单变量函数的线性近似（回顾）

对于单变量函数，在点附近的微小变化满足：这里是导数，右侧是用线性函数近似原函数的局部变化，刻画了变化率。

多元函数的线性近似

对于多元函数，在点附近的微小向量变化满足：其中是雅可比矩阵，右侧是原函数的局部线性近似。这里的线性变换由完全决定，其作用类似于单变量函数中的导数，但能处理多输入多输出的复杂映射。

机器学习中的意义

反向传播：神经网络的梯度计算本质上是雅可比矩阵的链式乘积（因为复合函数的雅可比矩阵满足链式法则

优化迭代：在牛顿法等优化算法中，雅可比矩阵（或其变体）用于构建当前点的线性近似模型，指导参数更新方向；

Hessian矩阵

定义

设函数为，即输入是k维向量，输出是标量。例如，当时，就是常见的二元函数。

若的二阶偏导数连续，则其Hessian矩阵是由二阶偏导数组成的「k×k」矩阵，形式为：

由于二阶偏导数连续时满足 (克莱罗定理) ，故是对称矩阵。

💡

为什么Jacobian一个向量能表示的操作, 到了Hessian就需要用矩阵来表示？

因为二阶导数是有次序性的，可以先对x求导也可以先对y求导

特殊情况：输入维度的变化

单输入函数（）

当函数时，黑塞矩阵退化为「1×1」矩阵（即标量），等于二阶导数：这与一元函数的二阶导数物理意义一致（如加速度、曲线曲率）。

多输入函数（）

以 n=2 为例，设，黑塞矩阵为：

此时矩阵维度始终为 n×n，与输出维度无关（因输出必为标量）。

💡

Hessian矩阵仅适用于多输入单输出？

黑塞矩阵的核心物理意义是描述函数在输入空间的局部曲率，而曲率是标量函数特有的性质

此外，多输出的的情况我们可以选择将矩阵堆叠

Hessian矩阵的潜在几何意义

曲率

对于单输出函数，其图像是 n+1 维空间中的曲面（如 n=2 时是三维曲面），黑塞矩阵通过 n×n 矩阵描述该曲面在各个方向（坐标轴）的弯曲程度。

例如「2输入单输出」函数

它的鞍点在

Hessian矩阵为

黑塞矩阵的特征值和特征向量直接对应曲面在不同方向的曲率性质：

特征值分析：

矩阵 H 的特征值为

（对应特征向量 (1,0)，即 x 轴方向）
（对应特征向量 (0,1)，即 y 轴方向）

特征值的符号决定弯曲方向：

λ1>0 表明曲面在 x 轴方向向上凸（曲率为正）
λ2<0 表明曲面在 y 轴方向向下凹（曲率为负）

特征值的绝对值决定弯曲程度的大小：∣λ1∣=∣λ2∣=2，说明两个方向的弯曲虽然相反但程度相同

与梯度进行配合（深度学习优化）

当函数在「零梯度位置」处的Hessian矩阵的特征值

全部为正值时，我们有该函数的局部最小值；

全部为负值时，我们有该函数的局部最大值；

为负值和正值时，我们有该函数的一个鞍点。

扩展：正定，半正定，不定，负定

💡

与生活认知的关键差异

“凸”“凹” 的方向界定：

生活中可能直观认为 “凸” 是向外鼓（如球形外表面），“凹” 是向内陷（如碗的内表面）；

数学中 “向上凸”（凸函数）的图像其实是 “开口向上” 的凹陷（如山谷），而 “向下凹”（凹函数）是 “开口向下” 的凸起（如山峰），定义更侧重于曲线弯曲的方向（二阶导数符号），而非直观的 “里外”。

峰谷与极值点的关联：

数学中，“谷” 对应局部最小值（如 x2 的最低点），“峰” 对应局部最大值（如 −x2 的最高点）；

鞍点则是 “峰谷的过渡形态”—— 在某个方向看是 “谷”，在另一个方向看是 “峰”，不存在局部极值，这与生活中 “峰谷必为高低点” 的认知不同。

二阶近似

在多元函数中，某点的黑塞矩阵（Hessian Matrix） 确实是对原函数在该点附近几何形态的二阶近似，这种近似可通过泰勒展开与二次型几何特性来理解

海塞（Hessian）矩阵是否有特殊几何意义？ - Singular的回答 - 知乎 https://www.zhihu.com/question/266451692/answer/94587580311

从微积分角度：一阶导数描述函数的 “变化率”（切平面），二阶导数描述 “变化率的变化率”（弯曲程度），黑塞矩阵通过二阶偏导数的组合，刻画了曲面在各个正交方向上的弯曲性质。

观点2

引用的话语

🤗 总结归纳

总结文章的内容

📎 参考文章

https://www.zhihu.com/question/271654098

https://www.zhihu.com/question/266451692

💡

有关Notion安装或者使用上的问题，欢迎您在底部评论区留言，一起交流~