
3.2 使用线性回归进行预测
线性回归是最广为人知的建模技术之一。它已有两百多年的历史,几乎被人们从所有可能的角度进行过探索。线性回归假设输入变量(X)和输出变量(Y)存在线性关系。它牵涉找到以下形式预测值Y的线性方程:
Yhat=WTX+b
其中X = {x1,x2,…,xn}是n个输入变量,W = {w1,w2,…wn}是线性系数,b是偏置项。偏置项允许回归模型即使无任何输入时仍可提供输出。它为我们提供了平移数据(可向左也可向右)从而更好地拟合数据的一种选项。输入样本i的观测值(Y)和预测值之间的误差为:

目标是找到系数W和偏置项b的最佳估计,以使观测值Y和预测值之间的误差最小。让我们来看一些示例,以便更好地理解这一点。
3.2.1 简单线性回归
如果只考虑一个自变量和一个因变量,我们得到的是一个简单的线性回归。考虑上一节中定义的房价预测示例,房屋面积(A)是自变量,房屋价格(Y)是因变量。我们想要找到预测价格和A之间的线性关系,其形式为:

其中b是偏置项。为此,我们需要确定W和b,以使价格Y和预测价格之间的误差最小。用于估计W和b的标准方法称为最小二乘法,即,我们尝试最小化误差平方和(S)。对于上述情况,表达式变为:

我们希望估计回归系数W和b,以使S最小。基于函数的导数在其极小值处为0的事实,得出以下两个等式:


求解这两个方程可找到两个未知数。为此,我们首先在第二个等式中展开求和公式:

看一下公式左侧的最后一项,它只是对一个常量做了N次求和。因此,可以将其重写为:

整理公式各项,得到:

公式右边的两项可分别用平均价格(输出)和平均面积(输入)
表示,因此得到:

以类似的方式,展开S对权重W的偏微分方程:

用表达式替换偏置项b:

整理:

运用均值定义,我们可以从中得出权重W的值:

式中分别是平均价格和平均面积。让我们用一些简单的样本数据试一下:
1)导入必要的模块。这是一个简单的示例,因此我们将仅使用NumPy、pandas和Matplotlib:

2)生成具有线性关系的随机数据。为了使其更真实,我们还添加了随机噪声。你可以看到两个变量(诱因:area
,效果:price
)遵循线性正相关关系:


3)使用刚定义的方程计算两个回归系数。你可以看到结果非常接近我们模拟的线性关系:

4)用得到的权重和偏差值来预测新价格:

5)将预测价格与实际价格一起绘制出来。你可以看到预测价格在域内呈线性关系:


3.2.2 多线性回归
前面的例子很简单,但事实并非如此。在大多数问题中,因变量取决于多个自变量。多线性回归可找到多个输入自变量(X)与输出因变量(Y)之间的线性关系,以使它们满足以下形式的预测值:

其中X={x1,x2,…,xn}是n个输入自变量,W={w1,w2,… wn}是线性系数,b为偏置项。
如前所述,使用最小二乘法来估计线性系数W,即最小化预测值和观测值(Y)之间的平方差之和。因此,我们尝试最小化损失函数:

式中,求和覆盖所有训练样本。可能正如你已猜到的,现在不是两个,而是有n+1个方程需要同时求解。一个更简单的选择是使用TensorFlow Estimator API。我们将很快学习如何使用TensorFlow Estimator API。
3.2.3 多元线性回归
在某些情况下,自变量会影响多个因变量。多元线性回归就是这种情况。从数学上讲,多元回归模型可以表示为:

式中i∈[1, … , n],j∈[1, … , m]。项代表与第i个输入样本相对应的第j个预测输出值,w代表回归系数,xik是第i个输入样本的第k个特征。在这种情况下,需要求解的方程式数为n×m。尽管我们可以使用矩阵来求解这些方程,但该过程在计算上是昂贵的,因为它涉及求解逆矩阵和求解行列式。一种更简单的方法是使用最小二乘误差之和的梯度下降作为损失函数,并使用TensorFlow API提供的某个优化器。
下面我们将深入研究TensorFlow Estimator,这是一种通用的高阶API,可轻松开发模型。