type
Post
status
Published
date
Jun 25, 2025
slug
summary
tags
category
icon
password
这里写文章的前言:
一个简单的开头,简述这篇文章讨论的问题、目标、人物、背景是什么?并简述你给出的答案。
可以说说你的故事:阻碍、努力、结果成果,意外与转折。
📝 主旨内容
情况讨论
引用的话语
想要理解Jacobian矩阵和Hessian矩阵首先得了解他们的应用场景和作用。以下我们讨论几种函数类型。
- 单变量单输出函数(标量函数的标量导数)
- 多变量单输出函数(多维输入对应标量输出)
- 多变量多输出函数(多维输入对应多维。输出)
函数类型 | 雅可比矩阵维度 | Hessian 矩阵维度 |
单输入单输出 | 1×1(标量) | 1×1(标量) |
多输入单输出 | 1×n(行向量) | n×n |
单输入多输出 | m×1(列向量) | 不适用(需二阶导数) |
多输入多输出 | m×n | 每个输出分量对应 n×n |
对比维度 | 黑塞矩阵(Hessian) | 雅可比矩阵(Jacobian) |
函数类型 | 仅适用于 多输入单输出(f:Rn→R) | 适用于任意输入输出维度(f:Rn→Rm) |
导数阶数 | 二阶偏导数 | 一阶偏导数 |
矩阵维度 | n×n(n 为输入维度) | m×n(m 为输出维度,n 为输入维度) |
对称性 | 若二阶导数连续则为对称矩阵 | 无对称性要求 |
几何意义 | 描述函数的局部曲率(如凸性、极值性质) | 描述函数的局部线性变换(如梯度方向、导数向量) |
为什么Hessian仅适用于多输入单输出?
其实多输出也可以,但是就不是“矩阵“了,而是矩阵的堆叠
对比维度 | 雅可比矩阵(一阶导数) | 黑塞矩阵(二阶导数) |
导数阶数 | 一阶(仅一次求导) | 二阶(两次求导) |
输入变量关联 | 每个元素仅关联 1 个输入变量 | 每个元素关联 2 个输入变量(顺序相关) |
数学结构 | 向量(维度 = 输入维度 n) | 矩阵(维度 = n×n) |
几何意义 | 函数在各输入方向的变化率(梯度) | 函数在各方向的曲率变化(二次近似) |
Jacobian矩阵
定义
设函数 ,即输入是n维向量,输出是m维向量。
其雅可比矩阵 是一个「m*n」的矩阵,元素为:
其中每一行是输出向量 的 m 个分量函数。
Jacobian矩阵只有在「多输入多输出」的情况下才是“矩阵”
不同情况下的Jacobian矩阵的退化形态
雅可比“矩阵”也可以是“标量”或“向量”
- 多输入单输出函数()
例如:损失函数,梯度下降
当函数 输出为标量时,雅可比矩阵退化为「1行n列」的矩阵,即一个行向量:
这正是函数 的梯度(Gradient)。
- 单输入多输出函数()
当函数 输入为标量时,雅可比矩阵退化为「m行1列」的矩阵,即 列向量:
这是输出向量 对输入x的导数向量。
- 单输入单输出()
此时函数 的雅可比矩阵退化为「1×1」 矩阵,即标量,也就是普通的导数。
雅可比矩阵的潜在意义
几何意义
雅可比矩阵描述了函数在局部的「线性近似」,其维度反映了输入空间与输出空间的映射关系。
单变量函数的线性近似(回顾)
对于单变量函数 ,在点 附近的微小变化 满足: 这里 是导数,右侧是用线性函数 近似原函数的局部变化, 刻画了变化率。
多元函数的线性近似
对于多元函数 ,在点 附近的微小向量变化 满足: 其中 是雅可比矩阵,右侧是原函数的局部线性近似。这里的线性变换由 完全决定,其作用类似于单变量函数中的导数,但能处理多输入多输出的复杂映射。
机器学习中的意义
- 反向传播:神经网络的梯度计算本质上是雅可比矩阵的链式乘积(因为复合函数的雅可比矩阵满足链式法则
- 优化迭代:在牛顿法等优化算法中,雅可比矩阵(或其变体)用于构建当前点的线性近似模型,指导参数更新方向;
Hessian矩阵
定义
设函数为 ,即输入是k维向量 ,输出是标量。例如,当 时,就是常见的二元函数。
若 的二阶偏导数连续,则其Hessian矩阵 是由二阶偏导数组成的「k×k」矩阵,形式为:
由于二阶偏导数连续时满足 (克莱罗定理) ,故 是对称矩阵。
为什么Jacobian一个向量能表示的操作, 到了Hessian就需要用矩阵来表示?
因为二阶导数是有次序性的,可以先对x求导也可以先对y求导
特殊情况:输入维度的变化
- 单输入函数()
当函数 时,黑塞矩阵退化为「1×1」矩阵(即标量),等于二阶导数:这与一元函数的二阶导数物理意义一致(如加速度、曲线曲率)。
- 多输入函数()
以 n=2 为例,设 ,黑塞矩阵为:
此时矩阵维度始终为 n×n,与输出维度无关(因输出必为标量)。
Hessian矩阵仅适用于多输入单输出?
黑塞矩阵的核心物理意义是描述函数在输入空间的局部曲率,而曲率是标量函数特有的性质
此外,多输出的的情况我们可以选择将矩阵堆叠
Hessian矩阵的潜在几何意义
曲率
对于单输出函数,其图像是 n+1 维空间中的曲面(如 n=2 时是三维曲面),黑塞矩阵通过 n×n 矩阵描述该曲面在各个方向(坐标轴)的弯曲程度。
例如「2输入单输出」函数
它的鞍点在
Hessian矩阵为

黑塞矩阵的特征值和特征向量直接对应曲面在不同方向的曲率性质:
特征值分析:
- 矩阵 H 的特征值为
- (对应特征向量 (1,0),即 x 轴方向)
- (对应特征向量 (0,1),即 y 轴方向)
- 特征值的符号决定弯曲方向:
- λ1>0 表明曲面在 x 轴方向向上凸(曲率为正)
- λ2<0 表明曲面在 y 轴方向向下凹(曲率为负)
- 特征值的绝对值决定弯曲程度的大小:∣λ1∣=∣λ2∣=2,说明两个方向的弯曲虽然相反但程度相同
与梯度进行配合(深度学习优化)
当函数在「零梯度位置」处的Hessian矩阵的特征值
- 全部为正值时,我们有该函数的局部最小值;
- 全部为负值时,我们有该函数的局部最大值;
- 为负值和正值时,我们有该函数的一个鞍点。
扩展:正定,半正定,不定,负定
与生活认知的关键差异
- “凸”“凹” 的方向界定:
- 生活中可能直观认为 “凸” 是向外鼓(如球形外表面),“凹” 是向内陷(如碗的内表面);
- 数学中 “向上凸”(凸函数)的图像其实是 “开口向上” 的凹陷(如山谷),而 “向下凹”(凹函数)是 “开口向下” 的凸起(如山峰),定义更侧重于曲线弯曲的方向(二阶导数符号),而非直观的 “里外”。
- 峰谷与极值点的关联:
- 数学中,“谷” 对应局部最小值(如 x2 的最低点),“峰” 对应局部最大值(如 −x2 的最高点);
- 鞍点则是 “峰谷的过渡形态”—— 在某个方向看是 “谷”,在另一个方向看是 “峰”,不存在局部极值,这与生活中 “峰谷必为高低点” 的认知不同。
二阶近似
在多元函数中,某点的黑塞矩阵(Hessian Matrix) 确实是对原函数在该点附近几何形态的二阶近似,这种近似可通过泰勒展开与二次型几何特性来理解
海塞(Hessian)矩阵是否有特殊几何意义? - Singular的回答 - 知乎
https://www.zhihu.com/question/266451692/answer/94587580311

从微积分角度:一阶导数描述函数的 “变化率”(切平面),二阶导数描述 “变化率的变化率”(弯曲程度),黑塞矩阵通过二阶偏导数的组合,刻画了曲面在各个正交方向上的弯曲性质。
观点2
引用的话语
🤗 总结归纳
总结文章的内容
📎 参考文章
有关Notion安装或者使用上的问题,欢迎您在底部评论区留言,一起交流~
- Author:YelloooBlue
- URL:https://tangly1024.com/article/21de32f0-1b7f-80f8-aaac-e93d0cb17876
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!







