在统计学与数据分析中,线性回归是一种常用的建模方法,用于研究两个变量之间的关系。当需要通过一组数据点拟合一条最佳直线时,通常采用最小二乘法来确定这条直线的斜率(记作$b$)和截距(记作$a$)。本文将详细介绍如何利用最小二乘法计算这些参数。
一、基本概念
假设我们有一组数据点$(x_i, y_i)$,其中$i=1,2,...,n$。我们的目标是找到一个线性函数:
$$
y = ax + b
$$
使得该函数能够尽可能地接近所有的数据点。这里的“接近”是指让所有数据点到直线的距离平方和最小化,这就是最小二乘法的核心思想。
二、公式推导
为了实现上述目标,我们需要定义误差函数,即所有数据点到直线的距离平方和:
$$
S(a, b) = \sum_{i=1}^{n}(y_i - (ax_i + b))^2
$$
接下来的任务就是找到合适的$a$和$b$值,使得$S(a, b)$达到最小值。为此,我们可以对$S(a, b)$分别关于$a$和$b$求偏导数,并令其等于零,从而得到最优解。
1. 对$b$求偏导并设为零
$$
\frac{\partial S}{\partial b} = -2\sum_{i=1}^{n}(y_i - (ax_i + b)) = 0
$$
化简后得到:
$$
\sum_{i=1}^{n}y_i = a\sum_{i=1}^{n}x_i + nb
$$
2. 对$a$求偏导并设为零
$$
\frac{\partial S}{\partial a} = -2\sum_{i=1}^{n}x_i(y_i - (ax_i + b)) = 0
$$
化简后得到:
$$
\sum_{i=1}^{n}x_iy_i = a\sum_{i=1}^{n}x_i^2 + b\sum_{i=1}^{n}x_i
$$
三、解方程组
将上述两个等式联立起来,形成一个二元一次方程组:
$$
\begin{cases}
\sum_{i=1}^{n}y_i = a\sum_{i=1}^{n}x_i + nb \\
\sum_{i=1}^{n}x_iy_i = a\sum_{i=1}^{n}x_i^2 + b\sum_{i=1}^{n}x_i
\end{cases}
$$
通过解这个方程组,可以得到$a$和$b$的具体表达式:
$$
b = \frac{n\sum x_iy_i - \sum x_i \sum y_i}{n\sum x_i^2 - (\sum x_i)^2}
$$
$$
a = \bar{y} - b\bar{x}
$$
其中,$\bar{x}$和$\bar{y}$分别是$x_i$和$y_i$的平均值。
四、实际应用示例
假设有以下几组数据点:(1,2), (2,3), (3,4), (4,5)。我们希望根据这些数据点建立线性回归模型。
1. 计算各变量的总和:
$$
\sum x_i = 1+2+3+4 = 10, \quad \sum y_i = 2+3+4+5 = 14
$$
2. 计算交叉项和平方和:
$$
\sum x_iy_i = 12 + 23 + 34 + 45 = 40
$$
$$
\sum x_i^2 = 1^2 + 2^2 + 3^2 + 4^2 = 30
$$
3. 代入公式计算$b$和$a$:
$$
b = \frac{440 - 1014}{430 - 10^2} = \frac{160 - 140}{120 - 100} = \frac{20}{20} = 1
$$
$$
a = \bar{y} - b\bar{x} = \frac{14}{4} - 1\frac{10}{4} = 3.5 - 2.5 = 1
$$
因此,所求的线性回归方程为:
$$
y = x + 1
$$
五、总结
通过以上步骤,我们可以清楚地看到如何使用最小二乘法来确定线性回归方程中的系数$a$和$b$。这种方法不仅理论基础扎实,而且在实际操作中也非常实用,广泛应用于各种数据分析场景中。