导航
当前位置:首页 > 公式大全

线性回归公式推导-回归推导详解

2026-04-18 00:15:40 作者 :佚名 围观 : 2次

线性回归公式推导

线性回归是统计学与机器学习领域中最基础、最核心的预测模型之一,其公式推导过程蕴含着深刻的数学思想与统计原理。理解其推导,不仅在于掌握一个工具的使用,更在于洞察其背后“最小化误差”这一普适性优化思想。从现实角度看,无论是经济学中预测GDP增长,还是医学中分析药物剂量与疗效的关系,亦或是市场营销中评估广告投入与销量的关联,线性回归都提供了量化分析的起点。其核心目标在于寻找一个线性方程,以最佳方式描述一个或多个自变量与一个因变量之间的线性关系。这个“最佳”的标准,通常定义为所有样本点的预测值与实际观测值之差的平方和达到最小,即著名的“最小二乘法”准则。推导过程将从这一准则出发,借助微积分中的极值求解方法,逐步解开模型参数——斜率和截距——的数学表达式。这一推导不仅会涉及基础的代数运算,更会自然地引入矩阵表示法,从而将问题提升到更一般化、更适于处理多变量情形的层面。掌握线性回归的公式推导,是深入理解更复杂模型(如逻辑回归、广义线性模型)的基石,也是培养严谨数据思维的关键一步。对于广大学习者,尤其是需要通过类似易搜职考网等平台系统提升数据分析能力的职场人士和考生来说呢,透彻理解这一推导过程,远比死记硬背最终公式更有价值,它能帮助我们在面对复杂数据问题时,知其然更知其所以然,做出更合理的模型选择与结果解释。

线 性回归公式推导


一、问题定义与模型设定

线性回归试图解决这样一个问题:给定一组观测数据,其中包含自变量(或称特征、解释变量)X和因变量(或称目标变量、响应变量)Y,我们假设它们之间存在一种近似线性的关系。我们的目标是找到一条直线(在高维空间中是超平面),使得这条直线能够最好地拟合这些数据点。

对于简单线性回归(只有一个自变量),模型可以表述为:

Y = β₀ + β₁X + ε

其中:

  • Y 是因变量。
  • X 是自变量。
  • β₀ 是截距项,表示当X为0时Y的期望值。
  • β₁ 是斜率,表示X每变动一个单位,Y平均变动的量。
  • ε 是随机误差项,代表了模型无法解释的部分,通常假设其均值为0,方差恒定,且与X无关。

对于有n个观测样本的数据集,第i个样本的模型为:

y_i = β₀ + β₁x_i + ε_i, (i = 1, 2, ..., n)

我们的核心任务,就是根据已知的(x_i, y_i)数据对,估计出未知的参数β₀β₁的最佳值,记为ŷ = b₀ + b₁x


二、最小二乘法准则的建立

何为“最佳”拟合?我们需要一个量化的标准。对于第i个样本,模型的预测值为ŷ_i = b₀ + b₁x_i,其与实际值y_i之间的差值称为残差(Residual),记为e_i = y_i - ŷ_i

直观上,一个好的模型应该使所有样本的残差总体上尽可能小。但直接求和Σe_i会导致正负残差相互抵消,无法真实反映总体误差。
也是因为这些,我们转而考虑残差的平方和(Sum of Squared Errors, SSE),也称为误差平方和:

SSE = Σ(e_i)² = Σ(y_i - ŷ_i)² = Σ[y_i - (b₀ + b₁x_i)]²

最小二乘法(Ordinary Least Squares, OLS)的核心思想就是:寻找能够使SSE达到最小值的参数b₀b₁。这是一个经典的多元函数求极值问题。


三、简单线性回归的参数推导(微积分法)

我们的目标函数是SSE(b₀, b₁)。为了找到其最小值点,我们分别对b₀b₁求偏导数,并令偏导数等于零。这两个方程构成了所谓的“正规方程组”(Normal Equations)。

第一步:对截距b₀求偏导

∂SSE/∂b₀ = ∂/∂b₀ [ Σ(y_i - b₀ - b₁x_i)² ] = Σ 2(y_i - b₀ - b₁x_i) (-1) = 0

化简后得到: Σ(y_i - b₀ - b₁x_i) = 0 即: Σy_i - nb₀ - b₁Σx_i = 0 ...... 方程 (1)

第二步:对斜率b₁求偏导

∂SSE/∂b₁ = ∂/∂b₁ [ Σ(y_i - b₀ - b₁x_i)² ] = Σ 2(y_i - b₀ - b₁x_i) (-x_i) = 0

化简后得到: Σ[ x_i (y_i - b₀ - b₁x_i) ] = 0 即: Σx_i y_i - b₀Σx_i - b₁Σx_i² = 0 ...... 方程 (2)

第三步:联立求解正规方程组

由方程(1) Σy_i - nb₀ - b₁Σx_i = 0,可以直接解出b₀的表达式: b₀ = (Σy_i)/n - b₁(Σx_i)/n = ȳ - b₁x̄ 其中,ȳ分别代表XY的样本均值。

b₀ = ȳ - b₁x̄代入方程(2) Σx_i y_i - b₀Σx_i - b₁Σx_i² = 0Σx_i y_i - (ȳ - b₁x̄)Σx_i - b₁Σx_i² = 0 Σx_i y_i - ȳΣx_i + b₁x̄Σx_i - b₁Σx_i² = 0 将含有b₁的项合并: b₁ (x̄Σx_i - Σx_i²) = ȳΣx_i - Σx_i y_i 由于x̄ = Σx_i / n,所以Σx_i = n x̄。代入上式: b₁ (x̄ n x̄ - Σx_i²) = ȳ n x̄ - Σx_i y_i b₁ (n x̄² - Σx_i²) = n x̄ ȳ - Σx_i y_i 两边同时乘以-1,并调整顺序,得到更常见的形式: b₁ (Σx_i² - n x̄²) = Σx_i y_i - n x̄ ȳ

注意到Σ(x_i - x̄)² = Σx_i² - 2x̄Σx_i + n x̄² = Σx_i² - 2n x̄² + n x̄² = Σx_i² - n x̄²。 同时,Σ(x_i - x̄)(y_i - ȳ) = Σ(x_i y_i - x_i ȳ - x̄ y_i + x̄ ȳ) = Σx_i y_i - ȳΣx_i - x̄Σy_i + n x̄ ȳ = Σx_i y_i - n x̄ ȳ - n x̄ ȳ + n x̄ ȳ = Σx_i y_i - n x̄ ȳ

也是因为这些,斜率b₁的最终表达式为: b₁ = [Σ(x_i - x̄)(y_i - ȳ)] / [Σ(x_i - x̄)²]

而截距b₀为: b₀ = ȳ - b₁ x̄

这就是简单线性回归模型参数的最小二乘估计公式。它们清晰地表明,回归系数b₁本质上是XY的协方差与X的方差的比值。


四、多元线性回归的矩阵形式推导

现实问题往往涉及多个自变量。设我们有p个自变量X₁, X₂, ..., X_p,模型扩展为: Y = β₀ + β₁X₁ + β₂X₂ + ... + β_pX_p + ε

对于n个样本(通常n > p+1),矩阵表示法能极大地简化推导和计算。我们定义:

  • 设计矩阵 X:一个n × (p+1)的矩阵,第一列全为1(对应截距项β₀),后续各列是每个自变量的观测值。
  • 参数向量 β:一个(p+1) × 1的列向量,β = [β₀, β₁, ..., β_p]ᵀ
  • 响应向量 y:一个n × 1的列向量,包含所有y_i
  • 误差向量 ε:一个n × 1的列向量。

则整个线性回归模型可以简洁地写为:y = Xβ + ε

我们的目标同样是寻找参数估计值b,使得残差平方和SSE最小。在矩阵形式下: SSE = (y - Xb)ᵀ(y - Xb)

这是一个关于向量b的二次型。对其求导需要用到矩阵微积分。我们的目标是求∇_b SSE = 0的解。

展开SSESSE = yᵀy - yᵀXb - bᵀXᵀy + bᵀXᵀXb 由于yᵀXb是一个标量,它等于其转置bᵀXᵀy
也是因为这些吧,: SSE = yᵀy - 2bᵀXᵀy + bᵀXᵀXb

对向量b求梯度: ∇_b SSE = -2Xᵀy + 2XᵀXb 令梯度等于零向量: -2Xᵀy + 2XᵀXb = 0 化简即得矩阵形式的正规方程组: XᵀXb = Xᵀy

假设XᵀX是满秩的(即可逆),我们可以直接解得参数的最小二乘估计: b = (XᵀX)⁻¹ Xᵀy

这个公式是线性回归模型在矩阵框架下的核心结论,它统一了从简单到多元的所有情况。当p=1时,代入即可得到之前推导的简单线性回归公式。


五、推导过程中的关键假设与几何解释

上述推导的成立依赖于一些基本假设,理解这些假设对于正确应用模型至关重要。

  • 线性关系:因变量与自变量之间的关系是线性的。
  • 随机抽样:样本数据是随机独立抽取的。
  • 自变量非完全共线:在多元回归中,自变量之间不存在严格的线性关系(保证XᵀX可逆)。
  • 误差项零均值与同方差E(ε_i)=0Var(ε_i)=σ²(常数)。
  • 误差项无自相关:不同观测的误差项之间不相关,Cov(ε_i, ε_j)=0 (i≠j)

从几何角度理解,矩阵推导非常优美。响应向量y存在于一个n维空间中。设计矩阵X的列向量张成了一个(p+1)维的子空间(列空间)。线性回归寻找的预测值向量ŷ = Xb,正是y在这个列空间上的正交投影。残差向量e = y - ŷ垂直于列空间。正规方程XᵀXb = Xᵀy实质上表达了Xᵀ(y - Xb) = Xᵀe = 0,即残差向量与X的每一列(即每一个自变量)都正交。最小二乘估计正是在这个几何意义下,找到了与观测值y在列空间上“距离”(欧几里得距离)最近的点。


六、从推导到应用:模型评估与扩展

完成参数估计后,我们需要评估模型的好坏。常见的评估指标都源于推导过程中的概念:

  • 残差平方和(SSE):衡量模型未解释的变异。
  • 总平方和(SST)SST = Σ(y_i - ȳ)²,衡量因变量自身的总变异。
  • 回归平方和(SSR)SSR = Σ(ŷ_i - ȳ)²,衡量模型解释的变异。三者关系:SST = SSR + SSE
  • 决定系数R²R² = SSR / SST = 1 - SSE/SST,衡量模型对数据变异的解释比例,是模型拟合优度的核心指标。

基于最小二乘框架,线性回归可以扩展到许多更复杂的情形,例如:

  • 加权最小二乘法(WLS):当误差项异方差时,通过赋予不同样本不同的权重来修正。
  • 广义最小二乘法(GLS):当误差项存在自相关或更复杂的协方差结构时使用。
  • 岭回归与Lasso回归:当XᵀX接近奇异(共线性严重)时,通过在损失函数中加入参数的正则化项(L2范数或L1范数)来获得更稳定或更稀疏的解。

这些扩展无一不是从最小二乘法的基本推导思想——构建一个损失函数并寻求其最小化——出发,通过修改损失函数或增加约束条件来适应不同的数据特性和分析需求。

线 性回归公式推导

线性回归公式的推导,从简单的微积分求极值到优雅的矩阵投影,构建了一套完整而自洽的理论体系。它不仅是数据分析入门的钥匙,更是连接经典统计学与现代机器学习的重要桥梁。对于希望通过系统学习提升自身数据分析能力,以应对职场挑战的专业人士来说呢,无论是通过易搜职考网这类综合性学习平台进行备考,还是在日常工作中应用数据分析工具,深刻理解这一推导过程所蕴含的数学逻辑和统计思想,都将为构建坚实的数据思维打下不可替代的基础。它让我们明白,任何一个预测模型的输出都不是魔术,而是基于数据和优化准则的数学必然结果,从而能更自信、更批判性地运用模型解决实际问题。

相关文章
  • kdj钝化选股指标公式-KDJ钝化公式

    KDJ指标钝化现象的综合评述 在金融市场的技术分析领域,KDJ指标作为一种经典且广为人知的震荡型工具,其核心价值在于通过价格波动的相对位置来研判市场的超买与超卖状态,进而捕捉短期趋势转折的契机。其计算

    2026-04-12
  • 斜齿轮当量齿数计算公式-斜齿轮当量齿数计算

    关键词:斜齿轮当量齿数 在齿轮传动,特别是斜齿轮传动的设计与分析领域,“当量齿数”是一个至关重要且应用广泛的核心概念。它并非指斜齿轮实际存在的齿数,而是一个为了简化计算和分析过程所引入的“等效”或“虚

    2026-04-12
  • 电量计算公式及单位-电量单位计算

    关键词综合评述:电量计算公式及单位 在电气工程、物理学乃至日常生活的各个领域,电量的计算与理解都是一项基础且至关重要的能力。电量,作为描述电荷多少的物理量,其核心计算公式与标准单位构成了我们量化、分析

    2026-04-12
  • 概率∩公式-概率公式

    概率论中交集(∩)公式的综合评述 在概率论这一数学分支中,交集(Intersection)是一个基石性的概念,它描述了两个或多个随机事件同时发生的状况。其对应的符号“∩”不仅简洁,而且蕴含着丰富的逻辑

    2026-04-12
  • 毛利计算公式举例说明-毛利计算实例

    毛利,作为企业财务分析中的核心指标之一,直观反映了企业产品或服务的初始盈利能力。它是指销售收入与销售成本之间的差额,是尚未扣除期间费用、税金等其他支出的“原始利润”。理解毛利及其计算,对于企业经营者评

    2026-04-12