向量求导公式大全-向量导数全览
2人看过
一、基本概念与符号约定

在深入公式之前,必须明确几种常见的符号体系(布局约定),这是理解向量求导的基石。不同的约定会导致导数结果的形式(行向量或列向量)不同,但本质是等价的。
- 分子布局(Numerator Layout):以分子为主导进行布局。标量y对列向量x求导,结果是一个与x同型的列向量(即梯度向量)。向量y对向量x求导,结果矩阵的行数等于y的维度,列数等于x的维度(雅可比矩阵)。
- 分母布局(Denominator Layout):以分母为主导进行布局。标量y对列向量x求导,结果是一个与x同型的行向量。向量y对向量x求导,结果矩阵的行数等于x的维度,列数等于y的维度(即雅可比矩阵的转置)。
为保持一致性,本文后续内容主要采用分子布局进行阐述,这也是机器学习等领域常见的选择。我们约定:向量默认为列向量,用小写粗体字母表示(如x, a);矩阵用大写粗体字母表示(如A, X);标量用普通字母表示。导数∂y/∂x 的结果维度与y和x的维度相关。
二、标量对向量的求导
这是最常见的情形,例如损失函数(标量)对模型参数(向量)求梯度。
1.线性形式
设 a 是与 x 无关的常数向量,标量函数 y = aTx = xTa。
其导数为:∂y/∂x = a。
证明:因 y = Σ aixi,故 ∂y/∂xi = ai,所以梯度向量为 a。
2.二次型
设 A 是常数矩阵,标量函数 y = xTAx。
其导数为:∂y/∂x = (A + AT)x。
特别地,若 A 是对称矩阵(即 A = AT),则公式简化为:∂y/∂x = 2Ax。
这一公式在最小二乘法、主成分分析等算法的推导中至关重要,易搜职考网的许多工程经济、数据分析类课程都会反复应用此结论。
3.复合函数:链式法则
设标量 y = f(u),而 u = g(x) 是向量 x 的标量函数,则标量 y 对向量 x 的导数为:
∂y/∂x = (∂y/∂u) (∂u/∂x)。
这里 ∂y/∂u 是标量,∂u/∂x 是向量(梯度),结果为一个向量。
三、向量对向量的求导
其结果是一个矩阵(雅可比矩阵),描述了输出向量每个分量相对于输入向量每个分量的变化率。
1.线性变换
设 y = Ax,其中 A 是常数矩阵,x 是向量。
其导数为:∂y/∂x = A。
这是非常直观的结果:线性变换的“导数”就是其变换矩阵本身。
2.复合函数链式法则
设向量 z = f(y),向量 y = g(x),则向量 z 对向量 x 的导数为:
∂z/∂x = (∂z/∂y)(∂y/∂x)。
注意这里的乘法是矩阵乘法。∂z/∂y 和 ∂y/∂x 都是雅可比矩阵。链式法则是神经网络反向传播算法的理论核心,对于通过易搜职考网学习人工智能认证的考生,必须透彻理解。
四、标量对矩阵的求导
在矩阵分解、神经网络权重更新等场景中会遇到。
1.迹(Trace)的相关公式
迹运算的循环置换性质使得相关求导非常简便。常用公式包括:
- ∂ tr(A)/∂A = I(单位矩阵)。
- ∂ tr(AB)/∂A = BT。
- ∂ tr(ATB)/∂A = B。
- ∂ tr(ABATC)/∂A = CAB + CTABT。
利用迹的性质,可以将许多标量对矩阵的求导转化为对迹的求导。
2.二次型与线性组合
设 y = aTXb,其中 a, b 为常数向量,X 为矩阵。
其导数为:∂y/∂X = abT。
设 y = aTXTXb,其求导过程需结合迹的技巧。
五、矩阵对矩阵的求导
这是最一般但也最复杂的形式,其结果是一个四维张量。在实际应用中,通常通过将矩阵向量化(vec运算)来转化为向量对向量的求导问题,从而利用已知的雅可比矩阵结果。
向量化与克罗内克积(Kronecker Product)
向量化运算 vec(X) 将矩阵按列堆叠成一个长向量。关键公式:
- vec(AXB) = (BT ⊗ A) vec(X),其中 ⊗ 表示克罗内克积。
- 利用此性质,可以将矩阵方程转化为向量方程,进而求导。
六、常用公式汇总与记忆技巧
为了便于记忆和应用,以下将核心公式以更紧凑的方式列出:
- 基本线性:
- ∂(aTx)/∂x = a
- ∂(Ax)/∂x = A
- 二次型(A对称时):
- ∂(xTAx)/∂x = 2Ax
- ∂(xTx)/∂x = 2x
- 涉及迹的运算:
- ∂ tr(AX)/∂X = AT
- ∂ tr(XTA)/∂X = A
- ∂ tr(XAXT)/∂X = X(A + AT)
记忆技巧:可以类比标量求导中的 ∂(ax)/∂x = a 和 ∂(ax²)/∂x = 2ax。对于迹的公式,记住“内部变量移到右边并转置”是一个常用的模式(在分子布局下)。
七、在机器学习与优化中的典型应用
向量求导公式不是抽象的数学游戏,而是解决实际问题的利器。
1.线性回归的正规方程
线性回归的损失函数为 J(θ) = (1/2)(Xθ - y)T(Xθ - y),其中 X 是设计矩阵,θ 是参数向量,y 是目标向量。
要求最优 θ,需令梯度为零:∂J/∂θ = 0。
展开计算:J(θ) = (1/2)(θTXTXθ - 2θTXTy + yTy)。
利用二次型求导公式:∂J/∂θ = XTXθ - XTy = 0。
解得正规方程:θ = (XTX)-1XTy。这一简洁推导完全依赖于向量求导。
2.逻辑回归的梯度计算
逻辑回归的损失函数(交叉熵损失)对于单个样本的梯度推导也涉及向量求导。通过链式法则,可以高效地计算出权重向量的更新方向,这是构建分类模型的基础。
3.神经网络的反向传播
反向传播算法本质上是链式法则在多层复合函数中的系统化、高效应用。每一层权重的梯度计算,都归结为标量损失对矩阵权重的求导,通过向量化技术和链式法则逐层反向计算。易搜职考网提供的深度学习课程中,会详细拆解这一过程,将公式与实际代码实现相对应。
八、学习建议与易错点分析
对于备考或自学的学员,掌握向量求导需注意:
- 明确布局约定:始终清楚自己使用的是分子布局还是分母布局,不同资料可能混用,这是导致混淆的主要原因。建议在开始推导前明确声明。
- 从定义出发验证:当对复杂公式不确定时,最可靠的方法是回到最原始的定义:写出标量函数表达式,对向量的每个分量求偏导,再组合成向量或矩阵形式。这有助于理解和记忆。
- 善用维度校验:求导结果的维度必须与输入输出维度相容。
例如,标量对n维向量求导,结果应是n维向量;m维向量对n维向量求导,结果应是m×n矩阵。利用维度校验可以快速发现推导中的错误。 - 结合实际问题练习:单纯记忆公式效果有限。应结合线性回归、逻辑回归、PCA等具体模型的推导进行练习,理解公式的来龙去脉。易搜职考网的题库和案例精讲部分为此提供了丰富的素材。
向量求导作为连接数学理论与工程实践的桥梁,其重要性不言而喻。它使得我们能够以简洁、统一的方式处理高维空间的优化问题,是现代数据科学和机器学习算法的基石。通过系统学习上述公式体系,并辅以足够的练习,学习者可以显著提升解决复杂建模和分析问题的能力,无论是在学术研究还是在职业资格考试中,都能做到游刃有余。持续的练习和应用是将知识内化的唯一途径。
11 人看过
6 人看过
6 人看过
5 人看过



