「机器学习」线性最小二乘回归

2025-03-21

T1	T2	T2	T2	T2	T2
线性最小二乘回归中的风险	函数假设	经验风险	经验风险最小化	固定设计风险	超额风险
普通最小二乘（OLS）估计量	满列秩假设与过定问题	闭式解推导	几何解释	数值求解～闭式解的局限性～QR分解
OLS固定设计分析	与最大似然估计的关系	风险分解	估计量性质	超额风险
OLS随机设计分析	超额风险	期望超额风险
岭回归	高维空间中的最小二乘法	岭最小二乘回归	估计量的期望风险	正则化参数的选择	下界

线性最小二乘回归中的风险#

给定输入/输出、特征/变量的观测值 $(x_i, y_i) \in \mathcal{X} \times \mathcal{Y}$ , $i = 1,\ldots,n$ （训练数据）, 当给定新的 $x \in \mathcal{X}$ 时, 使用回归函数 $f$ 预测 $y \in \mathcal{Y}$ （测试数据）, 使 $y \approx f(x)$ . 假设 $\mathcal{Y}$ 是 $\mathbb{R}$ 的子集, 使用平方损失 $\ell(y, z) = (y - z)^2$ , 最优预测器为 $f^*(x) = \mathbb{E}(y|x)$

函数假设#

仅考虑 $f_{\theta}(x)$ 关于 $\theta$ 是线性的情况, 假设其存在于向量空间 $\mathbb{R}^d$ .
注意 $f_{\theta}(x)$ 关于 $x$ 线性和关于 $\theta$ 线性不同. 虽假设 $f_{\theta}(x)$ 关于参数 $\theta$ 线性, 但不意味着关于输入 $x$ 线性, 若 $\mathcal{X}$ 不是向量空间, 关于 $x$ 线性的概念可能无意义.
通过里斯表示定理, 对任意 $x \in \mathcal{X}$ , 在 $\mathbb{R}^d$ 中存在向量 $\varphi(x)$ , 使得 $f_{\theta}(x) = \varphi(x)^{\top} \theta$ , $\varphi(x) \in \mathbb{R}^d$ 通常称为特征向量, 假设其已知且可显式计算. 此时考虑最小化 $\widehat{\mathcal{R}}(\theta):=\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}$ .
当 $\mathcal{X} \subset \mathbb{R}^d$ 时, 可额外假设 $f_{\theta}$ 是仿射函数, 通过 $\varphi(x)=\begin{pmatrix}x \\ 1\end{pmatrix}\in \mathbb{R}^{d + 1}$ 得到. 其他经典假设是 $\varphi(x)$ 由单项式组成. 在第7章（核方法）中可考虑无限维的特征.

经验风险#

公式：
- $\hat{\mathcal{R}}(\theta)=\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}=\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}$ .
- $n$ 为样本数量, $y$ 是观测值向量, $\Phi$ 是设计矩阵, $\theta$ 是模型参数向量, $\varphi(x_{i})$ 表示第 $i$ 个样本 $x_{i}$ 对应的特征向量
意义：基于给定观测数据衡量模型预测值与真实值差异, 反映模型在已知样本上的拟合程度

经验风险最小化#

选择由参数 $\theta \in \Theta$ 参数化的预测函数族 $f_{\theta} : \mathcal{X} \to \mathcal{Y}$ , 最小化经验风险为

\frac{1}{n} \sum_{i = 1}^{n} (y_{i} - f_{\theta}(x_{i}))^{2}

得到估计量 $\widehat{\theta} \in \arg\min \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - f_{\theta}(x_{i}))^{2}$
贝叶斯预测器 $f^*$ 不属于函数类 $\{f_{\theta}, \theta \in \Theta\}$ , 即模型存在误设.

固定设计风险#

公式：
- $\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right]=\mathbb{E}_{y}\left[\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}\right]$
- $\mathbb{E}_{y}$ 表示对 $y$ 求期望
意义：在固定输入数据情况下, 对所有可能输出求平均的预测误差, 从宏观角度评估模型性能, 反映模型在固定输入下对于不同输出的平均预测误差, 体现模型的泛化能力

超额风险#

公式：
- $\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^*=\frac{\sigma^{2}d}{n}$
- 其中 $\sigma^{2}$ 是噪声方差, $d$ 是特征维度, $n$ 是样本数量.
意义：衡量使用估计量 $\widehat{\theta}$ 相对于最优情况的额外风险

普通最小二乘（OLS）估计量#

满列秩假设与过定问题#

假设矩阵 $\Phi\in\mathbb{R}^{n\times d}$ 具有满列秩, 即 $\Phi$ 的秩为 $d$ . 此时, 该问题被称作“过定”问题, 必然满足 $d\leq n$ . 这一条件等价于假设 $\Phi^{\top}\Phi\in\mathbb{R}^{d\times d}$ 是可逆的

当 $\Phi$ 具有满列秩时, 经验风险 $\widehat{\mathcal{R}}(\theta)=\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}$ 的极小值点是唯一的, 这个极小值点被称为普通最小二乘（OLS）估计量

闭式解推导#

命题： 记（非中心化的）经验协方差矩阵为 $\widehat{\Sigma}:=\frac{1}{n}\Phi^{\top}\Phi\in\mathbb{R}^{d\times d}$ , 则
$\widehat{\theta}=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y.$

证明： 函数 $\widehat{\mathcal{R}}$ 是强制的（在无穷远处趋于无穷大）且连续, 所以至少存在一个极小值点. 并且该函数可微, 因此极小值点 $\widehat{\theta}$ 需满足 $\widehat{\mathcal{R}}'(\widehat{\theta}) = 0$ .

对于所有 $\theta\in\mathbb{R}^{d}$ ,

\widehat{\mathcal{R}}(\theta)=\frac{1}{n}(\|y\|_{2}^{2}-2\theta^{\top}\Phi^{\top}y + \theta^{\top}\Phi^{\top}\Phi\theta)

和

\widehat{\mathcal{R}}'(\theta)=\frac{2}{n}(\Phi^{\top}\Phi\theta - \Phi^{\top}y).

令 $\widehat{\mathcal{R}}'(\widehat{\theta}) = 0$ 得到正规方程

\Phi^{\top}\Phi\widehat{\theta}=\Phi^{\top}y,

则

\widehat{\theta}=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y.

几何解释#

$P = \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}$ 是到 $\text{im}(\Phi)$ 的正交投影

证明:

(1) 证明 $P$ 是投影矩阵（即 $P^2 = P$ ）

P^2 = \left[\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\right]\left[\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\right]=P.

(2) 证明 $P$ 是正交投影矩阵（即 $P = P^{\top}$ ）

P^{\top}=\left[\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\right]^{\top}=(\Phi^{\top})^{\top}\left[(\Phi^{\top}\Phi)^{-1}\right]^{\top}\Phi^{\top}=P.

则 $P$ 既是投影矩阵又满足对称性, 所以 $P$ 是正交投影矩阵.

(3) 证明 $P$ 将向量投影到 $\text{im}(\Phi)$

对于任意 $u\in\text{im}(\Phi)$ , 存在 $a\in\mathbb{R}^{d}$ 使得 $u = \Phi a$ , 则

Pu=\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}(\Phi a)=u.

这表明 $P$ 将 $\text{im}(\Phi)$ 中的向量投影到自身, 即 $P$ 将向量投影到 $\text{im}(\Phi)$ 上.

(4) 证明预测向量 $\Phi\widehat{\theta}=\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y$ 是 $y$ 到 $\text{im}(\Phi)$ 的正交投影

已知 $\widehat{\theta}=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y$ , 则预测向量

\Phi\widehat{\theta}=\Phi\left[(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y\right].

又因为 $P = \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}$ , 所以

\Phi\widehat{\theta}=Py.

根据前面已证明的 $P$ 是到 $\text{im}(\Phi)$ 的正交投影矩阵, 对于向量 $y\in\mathbb{R}^{n}$ , $\Phi\widehat{\theta}=Py$ 意味着预测向量 $\Phi\widehat{\theta}$ 是 $y$ 经过正交投影矩阵 $P$ 作用后的结果, 即预测向量 $\Phi\widehat{\theta}$ 是 $\mathbb{R}^{n}$ 中的向量 $y$ 到 $\text{im}(\Phi)\subset\mathbb{R}^{n}$ 的正交投影.

数值求解#

闭式解的局限性#

普通最小二乘估计的闭式解 $\widehat{\theta}=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y$ 虽便于理论分析, 但存在显著缺点：

稳定性问题：对 $\Phi^{\top}\Phi$ 求逆在某些情况下不稳定, 容易受到数值误差的影响.
计算成本问题：当特征维度 $d$ 较大时, 求逆运算的计算成本很高. 因此, 通常更倾向于使用其他方法.

QR分解#

QR分解原理：QR分解将矩阵 $\Phi$ 分解为 $\Phi = QR$ , 其中 $Q\in\mathbb{R}^{n\times d}$ 的列向量是正交单位向量, $R\in\mathbb{R}^{d\times d}$ 是上三角矩阵.

QR分解求解普通最小二乘推导: 矩阵 $\Phi\in\mathbb{R}^{n\times d}$ 可进行QR分解, 即 $\Phi = QR$ , 其中 $Q\in\mathbb{R}^{n\times d}$ 的列向量为正交单位向量（满足 $Q^{\top}Q = I_d$ , $I_d$ 为 $d$ 阶单位矩阵）, $R\in\mathbb{R}^{d\times d}$ 是上三角矩阵, 则
$(\Phi^{\top}\Phi)\widehat{\theta}=\Phi^{\top}y\Longleftrightarrow R^{\top}Q^{\top}QR\widehat{\theta}=R^{\top}Q^{\top}y\Longleftrightarrow R\widehat{\theta}=Q^{\top}y$
最后将其转化为上三角线性方程组, 可简便求解 $\widehat{\theta}$ , 计算比直接对 $\Phi^{\top}\Phi$ 求逆高效, 时间复杂度为 $O(d^{3})$ .

OLS固定设计分析#

我们假设输入数据 $(x_1,\ldots,x_n)$ 不是随机的, 并且我们只关注在这些输入点上获得较小的预测误差. 或者, 这可以被看作是一个预测问题, 其中输入分布 $dp(x)$ 是 $(x_1,\ldots,x_n)$ 的经验分布.
目标是最小化固定设计风险（此时 $\Phi$ 是确定的）：
$\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}\right]=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right]$

现在我们假设 $\Phi$ 是确定性的, $\widehat{\Sigma}=\frac{1}{n}\Phi^{\top}\Phi$ 是可逆的, 我们假设：

存在一个向量 $\theta_{*} \in \mathbb{R}^{d}$ , 使得对于 $i \in \{1, \ldots, n\}$ , 输入和输出之间的关系为

y_{i}=\varphi(x_{i})^{\top}\theta_{*}+\varepsilon_{i}

对于所有 $i \in \{1, \ldots, n\}$ , $\varepsilon_{i}$ 相互独立, 期望 $\mathbb{E}[\varepsilon_{i}]=0$ , 方差 $\mathbb{E}[\varepsilon_{i}^{2}]=\sigma^{2}$ .

噪声方差的作用：噪声方差 $\sigma^{2}$ 衡量了模型预测值与实际观测值之间的平均误差程度. 在模型选择和评估中, 它是一个重要的指标, 较小的 $\sigma^{2}$ 通常意味着模型的拟合效果更好, 对数据的解释能力更强.

##与最大似然估计的关系令噪声服从均值为0且方差为 $\sigma^{2}$ 的高斯分布, 也就是 $\varepsilon_{i} = y_{i} - \varphi(x_{i})^{\top}\theta_{*} \sim \mathcal{N}(0,\sigma^{2}),$ 那么 $\theta_{*}$ 的最小均方估计量与最大似然估计量是一致的（这里假设 $\Phi$ 是固定的）. 利用独立性和正态分布的概率密度函数, $y$ 的概率密度/似然函数为：

p(y|\theta,\sigma^{2}) = \prod_{i = 1}^{n}\frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left(-\frac{(y_{i} - \varphi(x_{i})^{\top}\theta)^{2}}{2\sigma^{2}}\right)

取对数并去掉常数项后, 最大似然估计量 $(\tilde{\theta},\tilde{\sigma}^{2})$ 会使下式达到最小

\frac{1}{2\sigma^{2}}\sum_{i = 1}^{n}(y_{i} - \varphi(x_{i})^{\top}\theta)^{2} + \frac{n}{2}\log(\sigma^{2})

原理本质：这种一致性的本质在于, 当噪声是高斯分布时, 最小化均方误差等同于最大化数据出现的似然. 最小二乘法从误差平方和最小的角度出发, 而最大似然估计从概率最大的角度出发, 在高斯噪声假设下二者殊途同归.
应用场景：在许多实际问题中, 比如线性回归模型, 噪声通常可以近似看作高斯分布. 因此, 我们既可以用最小二乘法快速求解参数, 也可以从最大似然估计的角度去理解模型的合理性和参数估计的统计性质.
局限性：然而, 当噪声不服从高斯分布时, 最小均方估计量和最大似然估计量就不再等价. 此时, 需要根据噪声的实际分布来选择合适的估计方法, 以获得更准确的参数估计.

练习: $\sigma^{2}$ 的 $\widetilde{\sigma}^{2}$ 的最大似然估计值是 $\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\widehat{\theta})^{2}.$
可通过对最大似然估计函数求关于 $\sigma^{2}$ 的极值, 进而得到 $\sigma^{2}$ 的最大似然估计值 $\widetilde{\sigma}^{2}$ .

证明: 已知在高斯噪声假设下, 取对数并去掉常数项后, 最大似然估计量 $(\widetilde{\theta},\widetilde{\sigma}^{2})$ 会最小化下面的式子： $L(\theta,\sigma^{2})=\frac{1}{2\sigma^{2}}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}+\frac{n}{2}\log(\sigma^{2})$ 将 $\theta$ 视为已知量（因为这里只对 $\sigma^{2}$ 求极值）, 令 $z_{i}=y_{i}-\varphi(x_{i})^{\top}\theta$ , 则

L(\sigma^{2})=\frac{1}{2\sigma^{2}}\sum_{i = 1}^{n}z_{i}^{2}+\frac{n}{2}\log(\sigma^{2}).

从而

\frac{dL(\sigma^{2})}{d\sigma^{2}}=\frac{d}{d\sigma^{2}}\left(\frac{1}{2\sigma^{2}}\sum_{i = 1}^{n}z_{i}^{2}+\frac{n}{2}\log(\sigma^{2})\right)=-\frac{1}{2(\sigma^{2})^2}\sum_{i = 1}^{n}z_{i}^{2}+\frac{n}{2\sigma^{2}}

令 $\frac{dL(\sigma^{2})}{d\sigma^{2}} = 0$ , 即

-\frac{1}{2(\sigma^{2})^2}\sum_{i = 1}^{n}z_{i}^{2}+\frac{n}{2\sigma^{2}}=0\Longleftrightarrow \sum_{i = 1}^{n}z_{i}^{2}=n\sigma^{2}\Longleftrightarrow \sigma^{2}=\frac{1}{n}\sum_{i = 1}^{n}z_{i}^{2}

将 $z_{i}=y_{i}-\varphi(x_{i})^{\top}\theta$ 代回, 可得 $\widetilde{\sigma}^{2}=\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\widehat{\theta})^{2}$ , 其中 $\widehat{\theta}$ 是普通最小二乘估计量.

所以, $\sigma^{2}$ 的最大似然估计值 $\widetilde{\sigma}^{2}$ 为 $\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\widehat{\theta})^{2}$ .

风险分解#

命题: 用 $\mathcal{R}^*$ 表示风险函数 $\mathcal{R}(\theta) = \mathbb{E}_{y}\left[\frac{1}{n}\lVert y - \Phi\theta\rVert_{2}^{2}\right]$ 在 $\mathbb{R}^{d}$ 上的最小值, 则对于任意 $\theta\in\mathbb{R}^{d}$ , 有 $\mathcal{R}^* = \sigma^{2}$ , 且
$\mathcal{R}(\theta) - \mathcal{R}^* = \lVert\theta - \theta_*\rVert_{\widehat{\Sigma}}^{2}$
其中 $\widehat{\Sigma}:=\frac{1}{n}\Phi^{\top}\Phi$ 是输入协方差矩阵, $\lVert\theta\rVert_{\widehat{\Sigma}}^{2} := \theta^{\top}\widehat{\Sigma}\theta$ . 如果 $\widehat{\theta}$ 是一个随机变量（例如作为 $\theta_*$ 的估计量）, 那么
$\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* = \underbrace{\lVert\mathbb{E}[\widehat{\theta}] - \theta_*\rVert_{\widehat{\Sigma}}^{2}}_{\text{偏差}} + \underbrace{\mathbb{E}[\lVert\widehat{\theta} - \mathbb{E}[\widehat{\theta}]\rVert_{\widehat{\Sigma}}^{2}]}_{\text{方差}}$

证明: 已知 $y = \Phi\theta_* + \varepsilon$ , 且 $\mathbb{E}[\varepsilon] = 0$ , $\mathbb{E}[\lVert\varepsilon\rVert_{2}^{2}] = n\sigma^{2}$ , 则

\begin{align*} \mathcal{R}(\theta) &= \mathbb{E}_{y}\left[\frac{1}{n}\lVert y - \Phi\theta\rVert_{2}^{2}\right] = \mathbb{E}_{\varepsilon}\left[\frac{1}{n}\lVert\Phi\theta_* + \varepsilon - \Phi\theta\rVert_{2}^{2}\right]\\ &= \frac{1}{n}\mathbb{E}_{y}\left[\lVert\Phi(\theta_* - \theta)\rVert_{2}^{2} + \lVert\varepsilon\rVert_{2}^{2} + 2[\Phi(\theta_* - \theta)]^{\top}\varepsilon\right]\\ &= \sigma^{2} + \frac{1}{n}(\theta - \theta_*)^{\top}\Phi^{\top}\Phi(\theta - \theta_*) \end{align*}

由于 $\widehat{\Sigma} = \frac{1}{n}\Phi^{\top}\Phi$ 可逆, 这表明 $\theta_*$ 是 $\mathcal{R}(\theta)$ 唯一的全局最小值点, 并且最小值 $\mathcal{R}^*$ 等于 $\sigma^{2}$ , 这就证明了第一个结论.

现在, 如果 $\theta$ 是随机的, 我们进行常见的偏差/方差分解：

\begin{align*} \mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* &= \mathbb{E}\left[\lVert\widehat{\theta} - \mathbb{E}[\widehat{\theta}] + \mathbb{E}[\widehat{\theta}] - \theta_*\rVert_{\widehat{\Sigma}}^{2}\right]\\ &= \mathbb{E}\left[\lVert\widehat{\theta} - \mathbb{E}[\widehat{\theta}]\rVert_{\widehat{\Sigma}}^{2}\right] + 2\mathbb{E}\left[(\widehat{\theta} - \mathbb{E}[\widehat{\theta}])^{\top}\widehat{\Sigma}(\mathbb{E}[\widehat{\theta}] - \theta_*)\right] + \mathbb{E}\left[\lVert\mathbb{E}[\widehat{\theta}] - \theta_*\rVert_{\widehat{\Sigma}}^{2}\right]\\ &= \mathbb{E}\left[\lVert\widehat{\theta} - \mathbb{E}[\widehat{\theta}]\rVert_{\widehat{\Sigma}}^{2}\right] + 0 + \lVert\mathbb{E}[\widehat{\theta}] - \theta_*\rVert_{\widehat{\Sigma}}^{2} \end{align*}

（注：这也是 $\mathbb{E}[\lVert z - a\rVert_{M}^{2}] = \lVert\mathbb{E}z - a\rVert_{M}^{2} + \mathbb{E}[\lVert z - \mathbb{E}[z]\rVert_{M}^{2}]$ 在 $a = \theta_*$ , $M = \widehat{\Sigma}$ 以及 $z = \widehat{\theta}$ 时的一个简单应用. ）

估计量性质#

普通最小二乘 $\widehat{\theta}$ 具有以下性质：
(1)它是无偏的, 即 $\mathbb{E}[\widehat{\theta}]=\theta_*$ ;
(2)它的方差为 $\text{Var}(\widehat{\theta})=\mathbb{E}[(\widehat{\theta}-\theta_*)(\widehat{\theta}-\theta_*)^{\top}]=\frac{\sigma^{2}}{n}\widehat{\Sigma}^{-1}$ ； $\widehat{\Sigma}^{-1}$ 通常被称为精度矩阵.

证明: (1) 由于 $y_{i}=\varphi(x_{i})^{\top}\theta_{*}+\varepsilon_{i}$ , 则 $\mathbb{E}[y] = \Phi\theta_*$ , 从而

\mathbb{E}[\widehat{\theta}]=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\Phi\theta_*=\theta_*;

(2) 因为 $\widehat{\theta}=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y,$ 则 $\widehat{\theta}-\theta_*=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}(\Phi\theta_*+\varepsilon)-\theta_*=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon$ .

利用 $\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I$ , 我们有

\begin{align*} \text{var}(\widehat{\theta})&=\mathbb{E}[(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon\varepsilon^{\top}\Phi(\Phi^{\top}\Phi)^{-1}]\\ &=\sigma^{2}(\Phi^{\top}\Phi)^{-1}(\Phi^{\top}\Phi)(\Phi^{\top}\Phi)^{-1}\\ &=\sigma^{2}(\Phi^{\top}\Phi)^{-1}\\ &=\frac{\sigma^{2}}{n}\widehat{\Sigma}^{-1}. \end{align*}

超额风险#

命题: 普通最小二乘估计量的超额风险等于
$\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* = \frac{\sigma^{2}d}{n}$

证明: 利用OLS风险分解结论和 $\mathbb{E}[\widehat{\theta}] = \theta_*$ , 我们有

\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* = \mathbb{E}[\|\widehat{\theta} - \theta_*\|_{\widehat{\Sigma}}^{2}]

由于期望和迹都是线性算子且运算顺序可交换（ $\mathbb{E}[\text{tr}(X)]=\text{tr}(\mathbb{E}[X])$ ） $\widehat{\Sigma}$ 在固定设计下是固定的可提出到期望外, 最终得到 $\text{tr}(\widehat{\Sigma}\mathbb{E}[(\widehat{\theta} - \theta_*)(\widehat{\theta} - \theta_*)^{\top}])$
$\text{var}(\widehat{\theta})=\mathbb{E}[(\widehat{\theta} - \mathbb{E}[\widehat{\theta}])(\widehat{\theta} - \mathbb{E}[\widehat{\theta}])^{\top}]$ , 又因为 $\mathbb{E}[\widehat{\theta}] = \theta_*$ , 所以
$\mathbb{E}[(\widehat{\theta} - \theta_*)(\widehat{\theta} - \theta_*)^{\top}]=\text{var}(\widehat{\theta}).$

从而

\begin{align*} \mathbb{E}[\|\widehat{\theta} - \theta_*\|_{\widehat{\Sigma}}^{2}]&=\mathbb{E}[(\widehat{\theta} - \theta_*)^{\top}\widehat{\Sigma}(\widehat{\theta} - \theta_*)]=\mathbb{E}[\text{tr}((\widehat{\theta} - \theta_*)^{\top}\widehat{\Sigma}(\widehat{\theta} - \theta_*))]\\ &=\mathbb{E}[\text{tr}(\widehat{\Sigma}(\widehat{\theta} - \theta_*)(\widehat{\theta} - \theta_*)^{\top})]=\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* \\ &= \text{tr}[\text{var}(\widehat{\theta})\widehat{\Sigma}]. \end{align*}

因此 $\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* = \text{tr}[\text{var}(\widehat{\theta})\widehat{\Sigma}] = \frac{\sigma^{2}}{n}\text{tr}(I) = \frac{\sigma^{2}d}{n}.$

另一证明： 利用 $\widehat{\theta} - \theta_* = (\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon$ 这一恒等式, 可得

\begin{align*} \mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* &= \mathbb{E}[\|(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon\|_{\widehat{\Sigma}}^{2}]\\ &= \frac{1}{n}\mathbb{E}[\varepsilon^{\top}\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon]\\ &= \frac{1}{n}\mathbb{E}[\varepsilon^{\top}\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon]\\ &= \frac{1}{n}\mathbb{E}[\varepsilon^{\top}P\varepsilon] = \frac{1}{n}\mathbb{E}[\text{tr}(P\varepsilon\varepsilon^{\top})] = \frac{\sigma^{2}}{n}\text{tr}(P) = \frac{\sigma^{2}d}{n} \end{align*}

其中我们用到了 $P = \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}$ 是到 $\text{im}(\Phi)$ （ $\Phi$ 的值域）的正交投影矩阵, 且其维度为 $d$ .

命题: (1-2) $\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})] = \mathbb{E}[\mathcal{R}(\widehat{\theta})]=\frac{n - d}{n}\sigma^{2}$
(3) $n>d$ 时, $\sigma^{2}$ 的无偏估计量 $\hat{\sigma}^{2}=\frac{\|y - \Phi\widehat{\theta}\|_{2}^{2}}{n - d}$

证明: 已知经验风险 $\hat{\mathcal{R}}(\theta)=\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}$ 和固定设计风险 $\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right]$ 其中 $y = \Phi\theta_*+\varepsilon$ , $\mathbb{E}[\varepsilon]=0$ , $\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I$ .

(1) 计算 $\hat{\mathcal{R}}(\widehat{\theta})$

将 $y = \Phi\theta_*+\varepsilon$ 和 $\widehat{\theta}=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y$ 代入 $\hat{\mathcal{R}}(\widehat{\theta})$ 可得：

\begin{align*} \hat{\mathcal{R}}(\widehat{\theta})&=\frac{1}{n}\|(\Phi\theta_*+\varepsilon) - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}(\Phi\theta_*+\varepsilon)\|_{2}^{2}\\ &=\frac{1}{n}\|(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\varepsilon+(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\Phi\theta_*\|_{2}^{2}\\ \end{align*}

因为 $(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\Phi = 0$ , 所以 $\hat{\mathcal{R}}(\widehat{\theta})=\frac{1}{n}\|(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\varepsilon\|_{2}^{2}.$

(2)计算 $\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})]$

\begin{align*} \mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})]&=\frac{1}{n}\mathbb{E}[\varepsilon^{\top}(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})^{\top}(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\varepsilon]\\ &=\frac{1}{n}\mathbb{E}[\varepsilon^{\top}(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\varepsilon]\\ \end{align*}

设 $P = \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}$ , 它是到 $\text{im}(\Phi)$ 的正交投影矩阵, $I - P$ 也是正交投影矩阵, 且 $\text{tr}(P)=d$ , $\text{tr}(I)=n$ , 则 $\text{tr}(I - P)=n - d$ .

\begin{align*} \mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})]&=\frac{1}{n}\mathbb{E}[\varepsilon^{\top}(I - P)\varepsilon]\\ &=\frac{1}{n}\mathbb{E}[\text{tr}((I - P)\varepsilon\varepsilon^{\top})]\\ &=\frac{1}{n}\text{tr}((I - P)\mathbb{E}[\varepsilon\varepsilon^{\top}])\\ &=\frac{1}{n}\text{tr}((I - P)\sigma^{2}I)\\ &=\frac{\sigma^{2}}{n}\text{tr}(I - P)\\ &=\frac{n - d}{n}\sigma^{2} \end{align*}

又因为在固定设计场景下, $\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})] = \mathbb{E}[\mathcal{R}(\widehat{\theta})]$ （期望针对噪声 $\varepsilon$ , 经验风险和设计风险期望等价）, 所以 $\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})] = \mathbb{E}[\mathcal{R}(\widehat{\theta})]=\frac{n - d}{n}\sigma^{2}$ .

(3) 当 $n > d$ 时, 设 $\hat{\sigma}^{2}=\frac{\|y - \Phi\widehat{\theta}\|_{2}^{2}}{n - d}$ , 对其求期望：

\begin{align*} \mathbb{E}[\hat{\sigma}^{2}]&=\frac{1}{n - d}\mathbb{E}[\|y - \Phi\widehat{\theta}\|_{2}^{2}]\\ &=\frac{1}{n - d}\times n\times\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})]\\ &=\frac{1}{n - d}\times n\times\frac{n - d}{n}\sigma^{2}\\ &=\sigma^{2} \end{align*}

因为 $\mathbb{E}[\hat{\sigma}^{2}]=\sigma^{2}$ , 所以 $\frac{\|y - \Phi\widehat{\theta}\|_{2}^{2}}{n - d}$ 是噪声方差 $\sigma^{2}$ 的无偏估计量.

OLS随机设计分析#

随机设计：输入和输出都是随机的. 这是监督机器学习的经典场景, 目标是对未见过的数据进行泛化.

我们考虑 $x$ 和 $y$ 都被视为随机变量, 并且每一对 $(x_i, y_i)$ 被假定是相互独立且同分布的, 其分布为 $dp(x, y)$ . 我们的目标是证明, 对于固定设计场景得到的超额风险上界, 即 $\sigma^{2}d / n$ , 在随机设计场景下仍然有效. 我们对联合分布 $dp(x, y)$ 做出以下假设, 这些假设是从固定设计场景转换到随机设计场景的：

存在一个向量 $\theta_*\in\mathbb{R}^{d}$ , 使得输入和输出之间的关系为 $y = \varphi(x)^{\top}\theta_*+\varepsilon$ .
噪声 $\varepsilon\in\mathbb{R}$ 与 $x$ 相互独立, 且 $\mathbb{E}[\varepsilon]=0$ , 方差 $\mathbb{E}[\varepsilon^{2}]=\sigma^{2}$ .

基于上述假设, $\mathbb{E}(y|x)=\varphi(x)^{\top}\theta_*$ . 因此, 我们进行经验风险最小化, 且我们的函数类中包含贝叶斯预测器, 这种情况通常被称为模型设定正确的场景. 风险也有一个简单的表达式：

超额风险#

命题: 在上述线性模型下, 对于任意 $\theta\in\mathbb{R}^{d}$ , 超额风险等于：
$\mathcal{R}(\theta)-\mathcal{R}^*=\|\theta - \theta_*\|_{\Sigma}^{2}$
其中 $\Sigma:=\mathbb{E}[\varphi(x)\varphi(x)^{\top}]$ 是（非中心化的）协方差矩阵, $\mathcal{R}^*=\sigma^{2}$ .

证明: 我们有：

\begin{align*} \mathcal{R}(\theta)&=\mathbb{E}[(y - \theta^{\top}\varphi(x))^{2}]\\ &=\mathbb{E}[(\varphi(x)^{\top}\theta_*+\varepsilon - \theta^{\top}\varphi(x))^{2}]\\ &=\mathbb{E}[(\varphi(x)^{\top}\theta_* - \theta^{\top}\varphi(x))^{2}]+\mathbb{E}[\varepsilon^{2}]\\ &=(\theta - \theta_*)^{\top}\Sigma(\theta - \theta_*)+\sigma^{2} \end{align*}

由此得到所需结果.

注意, 与固定设计场景的唯一区别是 $\widehat{\Sigma}$ 被 $\Sigma$ 取代. 我们现在可以表示普通最小二乘估计量的风险.

性能下界部分：固定设计场景下得到的性能下界与OLS的上界匹配, 这体现了该理论的一致性和完整性. 在一般非最小二乘场景中证明类似结果更难, 说明最小二乘模型在理论分析上有一定优势, 也为后续研究其他模型提供了对比基础.
随机设计分析部分：随机设计场景更贴近实际应用中数据的产生情况. 通过设定假设条件, 推导出随机设计最小二乘回归的超额风险公式. 与固定设计场景的对比, 突出了不同场景下模型分析的差异和联系. 这部分内容对于理解在随机数据情况下最小二乘回归的性能和风险评估非常重要, 也为进一步研究更复杂的随机模型奠定了基础.

期望超额风险#

命题: 在上述线性模型下, 假设 $\widehat{\Sigma}$ 可逆, 普通最小二乘（OLS）估计量的期望超额风险等于
$\frac{\sigma^{2}}{n}\mathbb{E}[\text{tr}(\Sigma\widehat{\Sigma}^{-1})]$

证明: 由于OLS估计量为 $\widehat{\theta}=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}(\Phi\theta_*+\varepsilon)=\theta_*+\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon$ , 我们有：

\begin{align*} \mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^*&=\mathbb{E}\left[\left(\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\right)^{\top}\Sigma\left(\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\right)\right]\\ &=\mathbb{E}\left[\text{tr}\left(\Sigma\left(\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\right)\left(\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\right)^{\top}\right)\right]=\frac{1}{n^{2}}\mathbb{E}\left[\text{tr}\left(\Sigma\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\varepsilon^{\top}\Phi\widehat{\Sigma}^{-1}\right)\right]\\ &=\frac{1}{n^{2}}\mathbb{E}\left[\text{tr}\left(\Sigma\widehat{\Sigma}^{-1}\Phi^{\top}\mathbb{E}[\varepsilon\varepsilon^{\top}]\Phi\widehat{\Sigma}^{-1}\right)\right]=\mathbb{E}\left[\frac{\sigma^{2}}{n^{2}}\text{tr}\left(\Sigma\widehat{\Sigma}^{-1}\Phi^{\top}\Phi\widehat{\Sigma}^{-1}\right)\right]\\ &=\mathbb{E}\left[\frac{\sigma^{2}}{n}\text{tr}\left(\Sigma\widehat{\Sigma}^{-1}\right)\right] \end{align*}

因此, 要计算OLS估计量的期望风险, 我们需要计算 $\mathbb{E}[\text{tr}(\Sigma\widehat{\Sigma}^{-1})]$ . 这里的一个难点是 $\widehat{\Sigma}$ 可能不可逆. 在一些简单假设下（例如, $\varphi(x)$ 在 $\mathbb{R}^{d}$ 上有密度）, 只要 $n > d$ , $\widehat{\Sigma}$ 几乎肯定是可逆的, 然而其最小特征值可能非常小. 因此, 需要额外的假设来对其进行控制.

岭回归#

高维空间中的最小二乘法#

当 $d/n$ 趋近于 $1$ 时, 我们本质上是在记忆观测值 $y_i$ （也就是说, 例如当 $d = n$ 且 $\Psi$ 是一个可逆的方阵时, $\theta = \Phi^{-1}y$ 会得到 $y = \Phi\theta$ , 即普通最小二乘法会得到完美拟合, 但这对于未见数据的泛化通常是不利的）.
此外, 当 $d > n$ 时, $\Phi^{\top}\Phi$ 不可逆, 正规方程会有一个线性子空间的解. 这些高维（ $d$ 很大）情况下普通最小二乘法的表现往往不尽如人意 .

岭最小二乘回归#

对于正则化参数 $\lambda > 0$ , 我们将岭最小二乘估计量 $\theta_{\lambda}$ 定义为以下式子的极小值点：

\min_{\theta\in\mathbb{R}^{d}}\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}+\lambda\|\theta\|_{2}^{2}

岭回归估计量可以用闭式解的形式得到.

命题: 回顾 $\widehat{\Sigma}=\frac{1}{n}\Phi^{\top}\Phi\in\mathbb{R}^{d\times d}$ . 则有

\widehat{\theta}_{\lambda}=\frac{1}{n}(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}y

证明: 与命题3.1的证明类似, 我们可以计算目标函数的梯度, 其等于 $\frac{2}{n}(\Phi^{\top}\Phi\theta - \Phi^{\top}y)+2\lambda\theta$ . 令梯度为 $0$ , 即可得到该估计量.

与普通最小二乘估计量一样, 我们可以在线性模型和固定设计假设下分析这个估计量的统计性质. 关于随机设计以及可能的无限维特征的分析, 见第7章.

命题: 在线性模型假设下（并且对于固定设计场景）, 岭最小二乘估计量 $\widehat{\theta}_{\lambda}=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y$ 具有如下超额风险：
$\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})] - \mathcal{R}^*=\lambda^{2}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\theta_{*}+\frac{\sigma^{2}}{n}\text{tr}[\widehat{\Sigma}^{2}(\widehat{\Sigma}+\lambda I)^{-2}]$

证明: 我们使用命题3.3中的风险分解, 将其分为偏差项 $B$ 和方差项 $V$ . 因为 $\mathbb{E}[\widehat{\theta}_{\lambda}]=\frac{1}{n}(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\Phi\theta_{*}=(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}\theta_{*}=\theta_{*}-\lambda(\widehat{\Sigma}+\lambda I)^{-1}\theta_{*}$ , 由此可得

\begin{align*} B&=\|\mathbb{E}[\widehat{\theta}_{\lambda}] - \theta_{*}\|_{\widehat{\Sigma}}^{2}\\ &=\lambda^{2}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\theta_{*} \end{align*}

对于方差项, 利用 $\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I$ 这一事实, 我们有

\begin{align*} V&=\mathbb{E}[\|\widehat{\theta}_{\lambda}-\mathbb{E}[\widehat{\theta}_{\lambda}]\|_{\widehat{\Sigma}}^{2}]=\mathbb{E}\left[\left\|\frac{1}{n}(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right\|_{\widehat{\Sigma}}^{2}\right]=\mathbb{E}\left[\frac{1}{n^{2}}\text{tr}\left(\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right)\right]\\ &=\mathbb{E}\left[\frac{1}{n^{2}}\text{tr}\left(\Phi^{\top}\varepsilon\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-1}\right)\right]=\frac{\sigma^{2}}{n}\text{tr}\left(\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-1}\right) \end{align*}

将偏差项和方差项相加, 即可得到该命题结论.

估计量的期望风险#

在随机设计场景中, 假设 $\widehat{\Sigma}$ 可逆, 岭回归估计量的期望风险为

\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]=\lambda^{2}\mathbb{E}\left[\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\theta_{*}\right]+\frac{\sigma^{2}}{n}\text{tr}\left[(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\Sigma\right]

证明:

已知线性模型 $y = \Phi\theta_*+\varepsilon$ , 其中 $\mathbb{E}[\varepsilon]=0$ , $\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I$

岭回归估计量 $\widehat{\theta}_{\lambda}=(\frac{1}{n}\Phi^{\top}\Phi+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}y$

风险函数 $\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right]$

超额风险 $\mathcal{R}(\theta)-\mathcal{R}^*=\|\theta - \theta_*\|_{\Sigma}^{2}$ , 这里 $\Sigma = \mathbb{E}[\varphi(x)\varphi(x)^{\top}]$ , $\mathcal{R}^*=\sigma^{2}$ .

计算 $\widehat{\theta}_{\lambda}-\theta_*$

将 $y = \Phi\theta_*+\varepsilon$ $y = Φ θ_{*} + ε$ 代入岭回归估计量 $\widehat{\theta}_{\lambda}$ $θ_{λ}$ 可得：
- $\widehat{\theta}_{\lambda}=(\frac{1}{n}\Phi^{\top}\Phi+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}(\Phi\theta_*+\varepsilon)=(\frac{1}{n}\Phi^{\top}\Phi+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\Phi\theta_*+(\frac{1}{n}\Phi^{\top}\Phi+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon$ .
- 令 $\widehat{\Sigma}=\frac{1}{n}\Phi^{\top}\Phi$ , 则 $\widehat{\theta}_{\lambda}=(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon$ .
- 所以 $\widehat{\theta}_{\lambda}-\theta_*=(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon-\theta_*= - \lambda(\widehat{\Sigma}+\lambda I)^{-1}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon$ .

计算 $\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]$

根据超额风险公式 $\mathcal{R}(\widehat{\theta}_{\lambda})- \mathcal{R}^*=\|\widehat{\theta}_{\lambda}-\theta_*\|_{\Sigma}^{2}=(\widehat{\theta}_{\lambda}-\theta_*)^{\top}\Sigma(\widehat{\theta}_{\lambda}-\theta_*)$ , 对其求期望：
$\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]=\mathbb{E}\left[(- \lambda(\widehat{\Sigma}+\lambda I)^{-1}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon)^{\top}\Sigma(- \lambda(\widehat{\Sigma}+\lambda I)^{-1}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon)\right]$ .
$\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]=\mathbb{E}\left[\lambda^{2}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\theta_*-\frac{2\lambda}{n}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon+\frac{1}{n^{2}}\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right]$ .
因为 $\mathbb{E}[\varepsilon]=0$ , 所以 $\mathbb{E}\left[-\frac{2\lambda}{n}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right]=0$ .
对于 $\mathbb{E}\left[\frac{1}{n^{2}}\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right]$ ：
根据 $\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I$ , 则 $\mathbb{E}\left[\frac{1}{n^{2}}\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right]=\frac{\sigma^{2}}{n^{2}}\mathbb{E}\left[\text{tr}\left(\Phi^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\right)\right]$ .
又因为 $\widehat{\Sigma}=\frac{1}{n}\Phi^{\top}\Phi$ , 所以 $\frac{\sigma^{2}}{n^{2}}\mathbb{E}\left[\text{tr}\left(\Phi^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\right)\right]=\frac{\sigma^{2}}{n}\mathbb{E}\left[\text{tr}\left((\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\Sigma\right)\right]$ .
综上可得 $\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]=\lambda^{2}\mathbb{E}\left[\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\theta_{*}\right]+\frac{\sigma^{2}}{n}\text{tr}\left[(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\Sigma\right]$ .

正则化参数的选择#

命题: 当选择 $\lambda^{*}=\frac{\sigma\sqrt{\text{tr}(\widehat{\Sigma})}}{\|\theta_{*}\|_{2}\sqrt{n}}$ 时, 我们有

\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda^{*}})] - \mathcal{R}^*\leq\frac{\sigma\sqrt{\text{tr}(\widehat{\Sigma})}\|\theta_{*}\|_{2}}{\sqrt{n}}

证明: 我们利用 $(\widehat{\Sigma}+\lambda I)^{-2}\lambda\widehat{\Sigma}$ 的特征值小于 $\frac{1}{2}$ .

对于 $\widehat{\Sigma}$ 的所有特征值 $\mu$ , $(\mu + \lambda)^{-2}\mu\lambda\leq1/2\Leftrightarrow(\mu + \lambda)^{2}\geq2\lambda\mu$

B = \lambda^{2}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\theta_{*}=\lambda\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-2}\lambda\widehat{\Sigma}\theta_{*}\leq\frac{\lambda}{2}\|\theta_{*}\|_{2}^{2}

类似地, 我们有

V=\frac{\sigma^{2}}{n}\text{tr}[\widehat{\Sigma}^{2}(\widehat{\Sigma}+\lambda I)^{-2}]=\frac{\sigma^{2}}{n}\text{tr}[\widehat{\Sigma}\lambda\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-2}]\leq\frac{\sigma^{2}\text{tr}\widehat{\Sigma}}{2\lambda n}.

将 $\lambda^{*}$ （其选择是为了最小化 $B + V$ 的上界）代入即可得到结果.

我们可以得出以下几点结论：

实验部分：通过多项式回归实验研究正则化参数 $\lambda$ 对偏差和方差的影响, 能直观呈现其单调性和最优值, 这对于理解岭回归性能很重要. 比如在实际应用中, 我们可以根据实验结果快速找到合适的 $\lambda$ 范围, 提升模型效果.
$\lambda$ 选择部分：给出了一种理论上的最优 $\lambda$ 选择方式, 能帮助我们在岭回归中获得比OLS更好的风险界. 不过在实际中, $\sigma$ 、 $\theta_{*}$ 等参数可能未知, 需要通过估计等方法来确定 $\lambda^{*}$ , 这增加了应用的复杂性.
证明部分：利用特征值的性质推导偏差和方差的界, 从而得出命题结论. 这种理论推导为我们理解岭回归的风险性质提供了坚实基础, 也为后续改进和拓展模型提供了方向.

练习: 计算通过对 $\theta^{\top}\Lambda\theta$ 进行正则化得到的估计量的期望风险, 其中 $\Lambda\in\mathbb{R}^{d\times d}$ 是一个正定矩阵.

证明: 定义相关变量和目标函数

给定线性模型 $y = \Phi\theta_*+\varepsilon$ , 其中 $\mathbb{E}[\varepsilon]=0$ , $\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I$ . 通过对 $\theta^{\top}\Lambda\theta$ 进行正则化, 目标函数为 $J(\theta)=\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}+\lambda\theta^{\top}\Lambda\theta$ , 我们需要找到使 $J(\theta)$ 最小的 $\theta$ , 记为 $\widehat{\theta}_{\lambda}$ .

计算 $\widehat{\theta}_{\lambda}$ $θ_{λ}$
- 对 $J(\theta)$ $J (θ)$ 求梯度：
  - $\nabla_{\theta}J(\theta)=\frac{2}{n}\Phi^{\top}(\Phi\theta - y)+2\lambda\Lambda\theta$ .
  - 令 $\nabla_{\theta}J(\theta) = 0$ , 则 $\frac{2}{n}\Phi^{\top}(\Phi\theta - y)+2\lambda\Lambda\theta = 0$ .
  - 展开可得 $\frac{2}{n}\Phi^{\top}\Phi\theta-\frac{2}{n}\Phi^{\top}y + 2\lambda\Lambda\theta = 0$ .
  - 进一步整理为 $(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)\theta=\frac{1}{n}\Phi^{\top}y$ .
  - 假设 $(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)$ 可逆, 则 $\widehat{\theta}_{\lambda}=(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}y$ .
计算期望风险 $\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})]$ $E [R (θ_{λ})]$
- 已知风险函数 $\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right]$ $R (θ) = E_{y} [\frac{1}{n} ∥ y - Φ θ ∥_{2}^{2}]$ , 将 $y = \Phi\theta_*+\varepsilon$ $y = Φ θ_{*} + ε$ 代入可得：
  - $\mathcal{R}(\theta)=\mathbb{E}_{\varepsilon}\left[\frac{1}{n}\|\Phi\theta_*+\varepsilon - \Phi\theta\|_{2}^{2}\right]=\mathbb{E}_{\varepsilon}\left[\frac{1}{n}\|\Phi(\theta_* - \theta)+\varepsilon\|_{2}^{2}\right]$ .
  - 根据向量模的平方展开 $\|\vec{a}+\vec{b}\|_{2}^{2}=\|\vec{a}\|_{2}^{2}+\|\vec{b}\|_{2}^{2}+2\vec{a}^{\top}\vec{b}$ , 则 $\mathcal{R}(\theta)=\frac{1}{n}\mathbb{E}_{\varepsilon}\left[\|\Phi(\theta_* - \theta)\|_{2}^{2}+\|\varepsilon\|_{2}^{2}+2(\Phi(\theta_* - \theta))^{\top}\varepsilon\right]$ .
  - 因为 $\mathbb{E}_{\varepsilon}[\varepsilon]=0$ , 所以 $\mathcal{R}(\theta)=\frac{1}{n}\|\Phi(\theta_* - \theta)\|_{2}^{2}+\frac{1}{n}\mathbb{E}_{\varepsilon}[\|\varepsilon\|_{2}^{2}]$ , 又 $\mathbb{E}_{\varepsilon}[\|\varepsilon\|_{2}^{2}]=n\sigma^{2}$ , 则 $\mathcal{R}(\theta)=\frac{1}{n}\|\Phi(\theta_* - \theta)\|_{2}^{2}+\sigma^{2}$ .
- 计算 $\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})]$ $E [R (θ_{λ})]$ ：
  - $\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})]=\mathbb{E}\left[\frac{1}{n}\|\Phi(\theta_* - \widehat{\theta}_{\lambda})\|_{2}^{2}+\sigma^{2}\right]=\sigma^{2}+\mathbb{E}\left[\frac{1}{n}\|\Phi(\theta_* - \widehat{\theta}_{\lambda})\|_{2}^{2}\right]$ .
  - 把 $\widehat{\theta}_{\lambda}=(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}y$ $θ_{λ} = (\frac{1}{n} Φ^{⊤} Φ + λ Λ)^{- 1} \frac{1}{n} Φ^{⊤} y$ 和 $y = \Phi\theta_*+\varepsilon$ $y = Φ θ_{*} + ε$ 代入 $\theta_* - \widehat{\theta}_{\lambda}$ $θ_{*} - θ_{λ}$ ：
    - $\theta_* - \widehat{\theta}_{\lambda}=\theta_* - (\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}(\Phi\theta_*+\varepsilon)$ .
    - 进一步化简 $\theta_* - \widehat{\theta}_{\lambda}=(I - (\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}\Phi)\theta_* - (\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon$ .
  - 计算 $\mathbb{E}\left[\frac{1}{n}\|\Phi(\theta_* - \widehat{\theta}_{\lambda})\|_{2}^{2}\right]$ $E [\frac{1}{n} ∥Φ (θ_{*} - θ_{λ}) ∥_{2}^{2}]$ ：
    - $\mathbb{E}\left[\frac{1}{n}\|\Phi(\theta_* - \widehat{\theta}_{\lambda})\|_{2}^{2}\right]=\mathbb{E}\left[\frac{1}{n}(\theta_* - \widehat{\theta}_{\lambda})^{\top}\Phi^{\top}\Phi(\theta_* - \widehat{\theta}_{\lambda})\right]$ .
    - 分别计算各项的期望, 利用 $\mathbb{E}[\varepsilon]=0$ 和 $\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I$ 进行化简.
    - 最终可得 $\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})]=\sigma^{2}+\theta_{*}^{\top}(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}\Phi(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\theta_{*}+\frac{\sigma^{2}}{n}\text{tr}\left[\Phi^{\top}\Phi(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-2}\right]$ .

下界#

为了在固定设计场景中给出一个下界, 我们将仅考虑高斯噪声, 即 $\varepsilon$ 服从联合高斯分布, 均值为 $0$ , 协方差矩阵为 $\sigma^{2}I$ （添加这一额外假设只会使下界稍小一点）. 模型中唯一的不确定性在于 $\theta_*$ 的取值. 为了明确体现对 $\theta_*$ 的依赖, 用 $\mathcal{R}_{\theta_*}(\theta)$ 表示超额风险

\mathcal{R}_{\theta_*}(\theta)=\|\theta - \theta_*\|_{\widehat{\Sigma}}^{2}

我们的目标是求以下式子的下界

\sup_{\theta_*\in\mathbb{R}^{d}}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))

其中上确界是对所有从 $\mathbb{R}^{n}$ 到 $\mathbb{R}^{d}$ 的函数 $\mathcal{A}$ 取的（这些函数可以依赖于观测到的确定性量, 比如 $\Phi$ ）. 实际上, 算法将 $y = \Phi\theta_*+\varepsilon\in\mathbb{R}^{n}$ 作为输入, 并输出一个 $\mathbb{R}^{d}$ 中的参数向量.

在学习算法的贝叶斯分析中, 通过关于 $\theta_*$ 的某种概率的期望来给出上述上确界的下界, 在贝叶斯统计学中, 这种概率分布被称为先验分布. 也就是说, 对于任何算法/估计量 $\mathcal{A}$ , 我们有

\sup_{\theta_*\in\mathbb{R}^{d}}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))\geq\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))

在这里, 我们选择均值为 $0$ 、协方差矩阵为 $\frac{\sigma^{2}}{\lambda n}I$ 的正态分布作为先验分布, 因为这将使得计算可以得到闭式解.

利用超额风险的表达式（并忽略加性常数 $\sigma^{2}=\mathcal{R}^*$ ）, 我们由此得到下界

\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|\mathcal{A}(\Phi\theta_*+\varepsilon)-\theta_*\|_{\widehat{\Sigma}}^{2}

我们需要针对 $\mathcal{A}$ 最小化这个下界. 通过使 $\theta_*$ 成为随机变量, 我们现在得到了 $(\theta_*,\varepsilon)$ 的联合高斯分布. $(\theta_*,y)=(\theta_*,\Phi\theta_*+\varepsilon)$ 的联合分布也是均值为 $0$ 的高斯分布, 协方差矩阵为

\begin{pmatrix} \frac{\sigma^{2}}{\lambda n}I & \frac{\sigma^{2}}{\lambda n}\Phi^{\top}\\ \\ \frac{\sigma^{2}}{\lambda n}\Phi & \frac{\sigma^{2}}{\lambda n}\Phi\Phi^{\top}+\sigma^{2}I \end{pmatrix}=\frac{\sigma^{2}}{\lambda n} \begin{pmatrix} I & \Phi^{\top}\\ \\ \Phi & \Phi\Phi^{\top}+\lambda nI \end{pmatrix}

这将通过以 $y$ 为条件来完成, 即写成

\begin{align*} \mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|\mathcal{A}(\Phi\theta_*+\varepsilon)-\theta_*\|_{\widehat{\Sigma}}^{2}&=\mathbb{E}_{(\theta_*,y)}\|\mathcal{A}(y)-\theta_*\|_{\widehat{\Sigma}}^{2}\\ &=\int_{\mathbb{R}^{n}}\left(\int_{\mathbb{R}^{d}}\|\mathcal{A}(y)-\theta_*\|_{\widehat{\Sigma}}^{2}dp(\theta_*|y)\right)dp(y) \end{align*}

因此, 对于每个 $y$ , 最优的 $\mathcal{A}(y)$ 必须使 $\int_{\mathbb{R}^{d}}\|\mathcal{A}(y)-\theta_*\|_{\widehat{\Sigma}}^{2}dp(\theta_*|y)$ 最小化, 而这恰好是给定 $y$ 时 $\theta_*$ 的后验均值.

当我们计算回归的贝叶斯预测器时, 用于最小化期望平方偏差（即期望）的向量正是根据分布 $dp(\theta_*|y)$ 得到的.

由于 $(\theta_*,y)$ 的联合分布是具有已知参数的高斯分布, 我们利用这样一个性质：对于高斯变量, 给定 $y$ 的后验均值等于给定 $y$ 的后验众数, 也就是说, 它可以通过对关于 $\theta_*$ 的对数似然 $\log p(\theta_*,y)$ 求最大值得到. 忽略常数项, 并利用 $\varepsilon$ 和 $\theta_*$ 的独立性, 这个对数似然为

-\frac{1}{2\sigma^{2}}\|\varepsilon\|^{2}-\frac{\lambda n}{2\sigma^{2}}\|\theta_*\|_{2}^{2}=-\frac{1}{2\sigma^{2}}\|y - \Phi\theta_*\|^{2}-\frac{\lambda n}{2\sigma^{2}}\|\theta_*\|_{2}^{2}

这恰好（相差一个符号和一个常数）是岭回归的代价函数. 因此, 我们有： $\mathcal{A}^*(y)=(\Phi^{\top}\Phi + \lambda nI)^{-1}\Phi^{\top}y,$ 这正是岭回归估计量 $\widehat{\theta}_{\lambda}.$ 然后, 我们可以计算相应的最优风险, 得到：

\begin{align*} &\inf_{\mathcal{A}}\sup_{\theta_*\in\mathbb{R}^{d}}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))-\mathcal{R}^*\\ \geqslant&\inf_{\mathcal{A}}\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))-\mathcal{R}^*\text{（使用公式(3.6)）}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}^*(\Phi\theta_*+\varepsilon))-\mathcal{R}^*\text{（使用上述推理）}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|\mathcal{A}^*(\Phi\theta_*+\varepsilon)-\theta_*\|_{\widehat{\Sigma}}^{2}\text{（使用风险的表达式）}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|(\Phi^{\top}\Phi + \lambda nI)^{-1}\Phi^{\top}(\Phi\theta_*+\varepsilon)-\theta_*\|_{\widehat{\Sigma}}^{2}\text{（使用闭式表达式）}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|(\Phi^{\top}\Phi + \lambda nI)^{-1}\Phi^{\top}\varepsilon - \lambda n(\Phi^{\top}\Phi + \lambda nI)^{-1}\theta_*\|_{\widehat{\Sigma}}^{2}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\|-\lambda n(\Phi^{\top}\Phi + \lambda nI)^{-1}\theta_*\|_{\widehat{\Sigma}}^{2}+\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|(\Phi^{\top}\Phi + \lambda nI)^{-1}\Phi^{\top}\varepsilon\|_{\widehat{\Sigma}}^{2}\text{（由于独立性）}\\ =&\frac{\sigma^{2}}{\lambda n}(\lambda n)^{2}\frac{1}{n^{2}}\text{tr}[(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}]+\frac{\sigma^{2}}{n}\text{tr}[(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}^{2}]\\ =&\frac{\sigma^{2}}{n}\text{tr}[(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}] \end{align*}

当 $\lambda$ 趋于 $0$ 时, 这个风险趋于 $\frac{\sigma^{2}d}{n}$ . 这表明

\inf_{\mathcal{A}}\sup_{\theta_*\in\mathbb{R}^{d}}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))\geqslant\frac{\sigma^{2}d}{n}