CiMorns
5930 words
30 minutes
「机器学习」线性最小二乘回归
T1T2T2T2T2T2
线性最小二乘回归中的风险函数假设经验风险经验风险最小化固定设计风险超额风险
普通最小二乘(OLS)估计量满列秩假设与过定问题闭式解推导几何解释数值求解
闭式解的局限性
QR分解
OLS固定设计分析与最大似然估计的关系风险分解估计量性质超额风险
OLS随机设计分析超额风险期望超额风险
岭回归高维空间中的最小二乘法岭最小二乘回归估计量的期望风险正则化参数的选择下界

线性最小二乘回归中的风险#

给定输入/输出、特征/变量的观测值(xi,yi)X×Y(x_i, y_i) \in \mathcal{X} \times \mathcal{Y}, i=1,,ni = 1,\ldots,n(训练数据), 当给定新的xXx \in \mathcal{X}时, 使用回归函数ff预测yYy \in \mathcal{Y}(测试数据), 使yf(x)y \approx f(x). 假设Y\mathcal{Y}R\mathbb{R}的子集, 使用平方损失(y,z)=(yz)2\ell(y, z) = (y - z)^2, 最优预测器为f(x)=E(yx)f^*(x) = \mathbb{E}(y|x)

函数假设#

  • 仅考虑fθ(x)f_{\theta}(x)关于θ\theta是线性的情况, 假设其存在于向量空间Rd\mathbb{R}^d.

  • 注意fθ(x)f_{\theta}(x)关于xx线性和关于θ\theta线性不同. 虽假设fθ(x)f_{\theta}(x)关于参数θ\theta线性, 但不意味着关于输入xx线性, 若X\mathcal{X}不是向量空间, 关于xx线性的概念可能无意义.

  • 通过里斯表示定理, 对任意xXx \in \mathcal{X}, 在Rd\mathbb{R}^d中存在向量φ(x)\varphi(x), 使得fθ(x)=φ(x)θf_{\theta}(x) = \varphi(x)^{\top} \theta, φ(x)Rd\varphi(x) \in \mathbb{R}^d通常称为特征向量, 假设其已知且可显式计算. 此时考虑最小化R^(θ):=1ni=1n(yiφ(xi)θ)2\widehat{\mathcal{R}}(\theta):=\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}.

  • XRd\mathcal{X} \subset \mathbb{R}^d时, 可额外假设fθf_{\theta}是仿射函数, 通过φ(x)=(x1)Rd+1\varphi(x)=\begin{pmatrix}x \\ 1\end{pmatrix}\in \mathbb{R}^{d + 1}得到. 其他经典假设是φ(x)\varphi(x)由单项式组成. 在第7章(核方法)中可考虑无限维的特征.

经验风险#

  • 公式:
    • R^(θ)=1nyΦθ22=1ni=1n(yiφ(xi)θ)2\hat{\mathcal{R}}(\theta)=\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}=\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}.

    • nn为样本数量, yy是观测值向量, Φ\Phi是设计矩阵, θ\theta是模型参数向量, φ(xi)\varphi(x_{i})表示第ii个样本xix_{i}对应的特征向量

  • 意义:基于给定观测数据衡量模型预测值与真实值差异, 反映模型在已知样本上的拟合程度

经验风险最小化#

  • 选择由参数θΘ\theta \in \Theta参数化的预测函数族fθ:XYf_{\theta} : \mathcal{X} \to \mathcal{Y}, 最小化经验风险为
1ni=1n(yifθ(xi))2\frac{1}{n} \sum_{i = 1}^{n} (y_{i} - f_{\theta}(x_{i}))^{2}
  • 得到估计量θ^argmin1ni=1n(yifθ(xi))2\widehat{\theta} \in \arg\min \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - f_{\theta}(x_{i}))^{2}

  • 贝叶斯预测器ff^*不属于函数类{fθ,θΘ}\{f_{\theta}, \theta \in \Theta\}, 即模型存在误设.

固定设计风险#

  • 公式:

    • R(θ)=Ey[1nyΦθ22]=Ey[1ni=1n(yiφ(xi)θ)2]\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right]=\mathbb{E}_{y}\left[\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}\right]

    • Ey\mathbb{E}_{y}表示对yy求期望

  • 意义:在固定输入数据情况下, 对所有可能输出求平均的预测误差, 从宏观角度评估模型性能, 反映模型在固定输入下对于不同输出的平均预测误差, 体现模型的泛化能力

超额风险#

  • 公式:

    • E[R(θ^)]R=σ2dn\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^*=\frac{\sigma^{2}d}{n}

    • 其中σ2\sigma^{2}是噪声方差, dd是特征维度, nn是样本数量.

  • 意义:衡量使用估计量θ^\widehat{\theta}相对于最优情况的额外风险


普通最小二乘(OLS)估计量#

满列秩假设与过定问题#

假设矩阵ΦRn×d\Phi\in\mathbb{R}^{n\times d}具有满列秩, 即Φ\Phi的秩为dd. 此时, 该问题被称作“过定”问题, 必然满足dnd\leq n. 这一条件等价于假设ΦΦRd×d\Phi^{\top}\Phi\in\mathbb{R}^{d\times d}是可逆的

Φ\Phi具有满列秩时, 经验风险R^(θ)=1nyΦθ22\widehat{\mathcal{R}}(\theta)=\frac{1}{n}\|y - \Phi\theta\|_{2}^{2} 的极小值点是唯一的, 这个极小值点被称为普通最小二乘(OLS)估计量

闭式解推导#

命题: 记(非中心化的)经验协方差矩阵为Σ^:=1nΦΦRd×d\widehat{\Sigma}:=\frac{1}{n}\Phi^{\top}\Phi\in\mathbb{R}^{d\times d}, 则

θ^=1nΣ^1Φy.\widehat{\theta}=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y.

证明: 函数R^\widehat{\mathcal{R}}是强制的(在无穷远处趋于无穷大)且连续, 所以至少存在一个极小值点. 并且该函数可微, 因此极小值点θ^\widehat{\theta}需满足R^(θ^)=0\widehat{\mathcal{R}}'(\widehat{\theta}) = 0.

对于所有θRd\theta\in\mathbb{R}^{d},

R^(θ)=1n(y222θΦy+θΦΦθ)\widehat{\mathcal{R}}(\theta)=\frac{1}{n}(\|y\|_{2}^{2}-2\theta^{\top}\Phi^{\top}y + \theta^{\top}\Phi^{\top}\Phi\theta)

R^(θ)=2n(ΦΦθΦy).\widehat{\mathcal{R}}'(\theta)=\frac{2}{n}(\Phi^{\top}\Phi\theta - \Phi^{\top}y).

R^(θ^)=0\widehat{\mathcal{R}}'(\widehat{\theta}) = 0 得到正规方程

ΦΦθ^=Φy,\Phi^{\top}\Phi\widehat{\theta}=\Phi^{\top}y,

θ^=(ΦΦ)1Φy=1nΣ^1Φy.\widehat{\theta}=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y.

几何解释#

P=Φ(ΦΦ)1ΦP = \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}是到im(Φ)\text{im}(\Phi)的正交投影

image-20250321153114770

证明:

(1) 证明PP是投影矩阵(即P2=PP^2 = P

P2=[Φ(ΦΦ)1Φ][Φ(ΦΦ)1Φ]=P.P^2 = \left[\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\right]\left[\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\right]=P.

(2) 证明PP是正交投影矩阵(即P=PP = P^{\top}

P=[Φ(ΦΦ)1Φ]=(Φ)[(ΦΦ)1]Φ=P.P^{\top}=\left[\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\right]^{\top}=(\Phi^{\top})^{\top}\left[(\Phi^{\top}\Phi)^{-1}\right]^{\top}\Phi^{\top}=P.

PP既是投影矩阵又满足对称性, 所以PP是正交投影矩阵.

(3) 证明PP将向量投影到im(Φ)\text{im}(\Phi)

对于任意uim(Φ)u\in\text{im}(\Phi), 存在aRda\in\mathbb{R}^{d}使得u=Φau = \Phi a, 则

Pu=Φ(ΦΦ)1Φ(Φa)=u.Pu=\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}(\Phi a)=u.

这表明PPim(Φ)\text{im}(\Phi)中的向量投影到自身, 即PP将向量投影到im(Φ)\text{im}(\Phi)上.

(4) 证明预测向量Φθ^=Φ(ΦΦ)1Φy\Phi\widehat{\theta}=\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}yyyim(Φ)\text{im}(\Phi)的正交投影

已知θ^=(ΦΦ)1Φy\widehat{\theta}=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y, 则预测向量

Φθ^=Φ[(ΦΦ)1Φy].\Phi\widehat{\theta}=\Phi\left[(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y\right].

又因为P=Φ(ΦΦ)1ΦP = \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}, 所以

Φθ^=Py.\Phi\widehat{\theta}=Py.

根据前面已证明的PP是到im(Φ)\text{im}(\Phi)的正交投影矩阵, 对于向量yRny\in\mathbb{R}^{n}, Φθ^=Py\Phi\widehat{\theta}=Py意味着预测向量Φθ^\Phi\widehat{\theta}yy经过正交投影矩阵PP作用后的结果, 即预测向量Φθ^\Phi\widehat{\theta}Rn\mathbb{R}^{n}中的向量yyim(Φ)Rn\text{im}(\Phi)\subset\mathbb{R}^{n}的正交投影.

数值求解#

闭式解的局限性#

普通最小二乘估计的闭式解θ^=(ΦΦ)1Φy\widehat{\theta}=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y虽便于理论分析, 但存在显著缺点:

  • 稳定性问题:对ΦΦ\Phi^{\top}\Phi求逆在某些情况下不稳定, 容易受到数值误差的影响.

  • 计算成本问题:当特征维度dd较大时, 求逆运算的计算成本很高. 因此, 通常更倾向于使用其他方法.

QR分解#

QR分解原理:QR分解将矩阵Φ\Phi分解为Φ=QR\Phi = QR, 其中QRn×dQ\in\mathbb{R}^{n\times d}的列向量是正交单位向量, RRd×dR\in\mathbb{R}^{d\times d}是上三角矩阵.

QR分解求解普通最小二乘推导: 矩阵ΦRn×d\Phi\in\mathbb{R}^{n\times d}可进行QR分解, 即Φ=QR\Phi = QR, 其中QRn×dQ\in\mathbb{R}^{n\times d}的列向量为正交单位向量(满足QQ=IdQ^{\top}Q = I_d, IdI_ddd阶单位矩阵), RRd×dR\in\mathbb{R}^{d\times d}是上三角矩阵, 则

(ΦΦ)θ^=ΦyRQQRθ^=RQyRθ^=Qy(\Phi^{\top}\Phi)\widehat{\theta}=\Phi^{\top}y\Longleftrightarrow R^{\top}Q^{\top}QR\widehat{\theta}=R^{\top}Q^{\top}y\Longleftrightarrow R\widehat{\theta}=Q^{\top}y

最后将其转化为上三角线性方程组, 可简便求解θ^\widehat{\theta}, 计算比直接对ΦΦ\Phi^{\top}\Phi求逆高效, 时间复杂度为O(d3)O(d^{3}).

OLS固定设计分析#

我们假设输入数据(x1,,xn)(x_1,\ldots,x_n)不是随机的, 并且我们只关注在这些输入点上获得较小的预测误差. 或者, 这可以被看作是一个预测问题, 其中输入分布dp(x)dp(x)(x1,,xn)(x_1,\ldots,x_n)的经验分布.

目标是最小化固定设计风险(此时Φ\Phi是确定的):

R(θ)=Ey[1ni=1n(yiφ(xi)θ)2]=Ey[1nyΦθ22]\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}\right]=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right]

现在我们假设Φ\Phi是确定性的, Σ^=1nΦΦ\widehat{\Sigma}=\frac{1}{n}\Phi^{\top}\Phi是可逆的, 我们假设:

  • 存在一个向量θRd\theta_{*} \in \mathbb{R}^{d}, 使得对于i{1,,n}i \in \{1, \ldots, n\}, 输入和输出之间的关系为
yi=φ(xi)θ+εiy_{i}=\varphi(x_{i})^{\top}\theta_{*}+\varepsilon_{i}
  • 对于所有i{1,,n}i \in \{1, \ldots, n\}, εi\varepsilon_{i}相互独立, 期望E[εi]=0\mathbb{E}[\varepsilon_{i}]=0, 方差E[εi2]=σ2\mathbb{E}[\varepsilon_{i}^{2}]=\sigma^{2}.

噪声方差的作用:噪声方差σ2\sigma^{2}衡量了模型预测值与实际观测值之间的平均误差程度. 在模型选择和评估中, 它是一个重要的指标, 较小的σ2\sigma^{2}通常意味着模型的拟合效果更好, 对数据的解释能力更强.

##与最大似然估计的关系 令噪声服从均值为0且方差为σ2\sigma^{2}的高斯分布, 也就是 εi=yiφ(xi)θN(0,σ2),\varepsilon_{i} = y_{i} - \varphi(x_{i})^{\top}\theta_{*} \sim \mathcal{N}(0,\sigma^{2}), 那么θ\theta_{*}的最小均方估计量与最大似然估计量是一致的(这里假设Φ\Phi是固定的). 利用独立性和正态分布的概率密度函数, yy的概率密度/似然函数为:

p(yθ,σ2)=i=1n12πσ2exp((yiφ(xi)θ)22σ2)p(y|\theta,\sigma^{2}) = \prod_{i = 1}^{n}\frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\left(-\frac{(y_{i} - \varphi(x_{i})^{\top}\theta)^{2}}{2\sigma^{2}}\right)

取对数并去掉常数项后, 最大似然估计量(θ~,σ~2)(\tilde{\theta},\tilde{\sigma}^{2})会使下式达到最小

12σ2i=1n(yiφ(xi)θ)2+n2log(σ2)\frac{1}{2\sigma^{2}}\sum_{i = 1}^{n}(y_{i} - \varphi(x_{i})^{\top}\theta)^{2} + \frac{n}{2}\log(\sigma^{2})

原理本质:这种一致性的本质在于, 当噪声是高斯分布时, 最小化均方误差等同于最大化数据出现的似然. 最小二乘法从误差平方和最小的角度出发, 而最大似然估计从概率最大的角度出发, 在高斯噪声假设下二者殊途同归.

应用场景:在许多实际问题中, 比如线性回归模型, 噪声通常可以近似看作高斯分布. 因此, 我们既可以用最小二乘法快速求解参数, 也可以从最大似然估计的角度去理解模型的合理性和参数估计的统计性质.

局限性:然而, 当噪声不服从高斯分布时, 最小均方估计量和最大似然估计量就不再等价. 此时, 需要根据噪声的实际分布来选择合适的估计方法, 以获得更准确的参数估计.

练习: σ2\sigma^{2}σ~2\widetilde{\sigma}^{2}的最大似然估计值是 1ni=1n(yiφ(xi)θ^)2.\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\widehat{\theta})^{2}.

可通过对最大似然估计函数求关于σ2\sigma^{2}的极值, 进而得到σ2\sigma^{2}的最大似然估计值σ~2\widetilde{\sigma}^{2}.

证明: 已知在高斯噪声假设下, 取对数并去掉常数项后, 最大似然估计量(θ~,σ~2)(\widetilde{\theta},\widetilde{\sigma}^{2})会最小化下面的式子: L(θ,σ2)=12σ2i=1n(yiφ(xi)θ)2+n2log(σ2)L(\theta,\sigma^{2})=\frac{1}{2\sigma^{2}}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\theta)^{2}+\frac{n}{2}\log(\sigma^{2})θ\theta视为已知量(因为这里只对σ2\sigma^{2}求极值 ), 令zi=yiφ(xi)θz_{i}=y_{i}-\varphi(x_{i})^{\top}\theta, 则

L(σ2)=12σ2i=1nzi2+n2log(σ2).L(\sigma^{2})=\frac{1}{2\sigma^{2}}\sum_{i = 1}^{n}z_{i}^{2}+\frac{n}{2}\log(\sigma^{2}).

从而

dL(σ2)dσ2=ddσ2(12σ2i=1nzi2+n2log(σ2))=12(σ2)2i=1nzi2+n2σ2\frac{dL(\sigma^{2})}{d\sigma^{2}}=\frac{d}{d\sigma^{2}}\left(\frac{1}{2\sigma^{2}}\sum_{i = 1}^{n}z_{i}^{2}+\frac{n}{2}\log(\sigma^{2})\right)=-\frac{1}{2(\sigma^{2})^2}\sum_{i = 1}^{n}z_{i}^{2}+\frac{n}{2\sigma^{2}}

dL(σ2)dσ2=0\frac{dL(\sigma^{2})}{d\sigma^{2}} = 0, 即

12(σ2)2i=1nzi2+n2σ2=0i=1nzi2=nσ2σ2=1ni=1nzi2-\frac{1}{2(\sigma^{2})^2}\sum_{i = 1}^{n}z_{i}^{2}+\frac{n}{2\sigma^{2}}=0\Longleftrightarrow \sum_{i = 1}^{n}z_{i}^{2}=n\sigma^{2}\Longleftrightarrow \sigma^{2}=\frac{1}{n}\sum_{i = 1}^{n}z_{i}^{2}

zi=yiφ(xi)θz_{i}=y_{i}-\varphi(x_{i})^{\top}\theta代回, 可得σ~2=1ni=1n(yiφ(xi)θ^)2\widetilde{\sigma}^{2}=\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\widehat{\theta})^{2}, 其中θ^\widehat{\theta}是普通最小二乘估计量.

所以, σ2\sigma^{2}的最大似然估计值σ~2\widetilde{\sigma}^{2}1ni=1n(yiφ(xi)θ^)2\frac{1}{n}\sum_{i = 1}^{n}(y_{i}-\varphi(x_{i})^{\top}\widehat{\theta})^{2} .

风险分解#

命题:R\mathcal{R}^*表示风险函数R(θ)=Ey[1nyΦθ22]\mathcal{R}(\theta) = \mathbb{E}_{y}\left[\frac{1}{n}\lVert y - \Phi\theta\rVert_{2}^{2}\right]Rd\mathbb{R}^{d}上的最小值, 则对于任意θRd\theta\in\mathbb{R}^{d}, 有R=σ2\mathcal{R}^* = \sigma^{2}, 且

R(θ)R=θθΣ^2\mathcal{R}(\theta) - \mathcal{R}^* = \lVert\theta - \theta_*\rVert_{\widehat{\Sigma}}^{2}

其中Σ^:=1nΦΦ\widehat{\Sigma}:=\frac{1}{n}\Phi^{\top}\Phi是输入协方差矩阵, θΣ^2:=θΣ^θ\lVert\theta\rVert_{\widehat{\Sigma}}^{2} := \theta^{\top}\widehat{\Sigma}\theta. 如果θ^\widehat{\theta}是一个随机变量(例如作为θ\theta_*的估计量), 那么

E[R(θ^)]R=E[θ^]θΣ^2偏差+E[θ^E[θ^]Σ^2]方差\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* = \underbrace{\lVert\mathbb{E}[\widehat{\theta}] - \theta_*\rVert_{\widehat{\Sigma}}^{2}}_{\text{偏差}} + \underbrace{\mathbb{E}[\lVert\widehat{\theta} - \mathbb{E}[\widehat{\theta}]\rVert_{\widehat{\Sigma}}^{2}]}_{\text{方差}}

证明: 已知y=Φθ+εy = \Phi\theta_* + \varepsilon, 且E[ε]=0\mathbb{E}[\varepsilon] = 0, E[ε22]=nσ2\mathbb{E}[\lVert\varepsilon\rVert_{2}^{2}] = n\sigma^{2}, 则

R(θ)=Ey[1nyΦθ22]=Eε[1nΦθ+εΦθ22]=1nEy[Φ(θθ)22+ε22+2[Φ(θθ)]ε]=σ2+1n(θθ)ΦΦ(θθ)\begin{align*} \mathcal{R}(\theta) &= \mathbb{E}_{y}\left[\frac{1}{n}\lVert y - \Phi\theta\rVert_{2}^{2}\right] = \mathbb{E}_{\varepsilon}\left[\frac{1}{n}\lVert\Phi\theta_* + \varepsilon - \Phi\theta\rVert_{2}^{2}\right]\\ &= \frac{1}{n}\mathbb{E}_{y}\left[\lVert\Phi(\theta_* - \theta)\rVert_{2}^{2} + \lVert\varepsilon\rVert_{2}^{2} + 2[\Phi(\theta_* - \theta)]^{\top}\varepsilon\right]\\ &= \sigma^{2} + \frac{1}{n}(\theta - \theta_*)^{\top}\Phi^{\top}\Phi(\theta - \theta_*) \end{align*}

由于Σ^=1nΦΦ\widehat{\Sigma} = \frac{1}{n}\Phi^{\top}\Phi可逆, 这表明θ\theta_*R(θ)\mathcal{R}(\theta)唯一的全局最小值点, 并且最小值R\mathcal{R}^*等于σ2\sigma^{2}, 这就证明了第一个结论.

现在, 如果θ\theta是随机的, 我们进行常见的偏差/方差分解:

E[R(θ^)]R=E[θ^E[θ^]+E[θ^]θΣ^2]=E[θ^E[θ^]Σ^2]+2E[(θ^E[θ^])Σ^(E[θ^]θ)]+E[E[θ^]θΣ^2]=E[θ^E[θ^]Σ^2]+0+E[θ^]θΣ^2\begin{align*} \mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* &= \mathbb{E}\left[\lVert\widehat{\theta} - \mathbb{E}[\widehat{\theta}] + \mathbb{E}[\widehat{\theta}] - \theta_*\rVert_{\widehat{\Sigma}}^{2}\right]\\ &= \mathbb{E}\left[\lVert\widehat{\theta} - \mathbb{E}[\widehat{\theta}]\rVert_{\widehat{\Sigma}}^{2}\right] + 2\mathbb{E}\left[(\widehat{\theta} - \mathbb{E}[\widehat{\theta}])^{\top}\widehat{\Sigma}(\mathbb{E}[\widehat{\theta}] - \theta_*)\right] + \mathbb{E}\left[\lVert\mathbb{E}[\widehat{\theta}] - \theta_*\rVert_{\widehat{\Sigma}}^{2}\right]\\ &= \mathbb{E}\left[\lVert\widehat{\theta} - \mathbb{E}[\widehat{\theta}]\rVert_{\widehat{\Sigma}}^{2}\right] + 0 + \lVert\mathbb{E}[\widehat{\theta}] - \theta_*\rVert_{\widehat{\Sigma}}^{2} \end{align*}

(注:这也是E[zaM2]=EzaM2+E[zE[z]M2]\mathbb{E}[\lVert z - a\rVert_{M}^{2}] = \lVert\mathbb{E}z - a\rVert_{M}^{2} + \mathbb{E}[\lVert z - \mathbb{E}[z]\rVert_{M}^{2}]a=θa = \theta_*, M=Σ^M = \widehat{\Sigma}以及z=θ^z = \widehat{\theta}时的一个简单应用. )

估计量性质#

普通最小二乘θ^\widehat{\theta}具有以下性质:

(1)它是无偏的, 即E[θ^]=θ\mathbb{E}[\widehat{\theta}]=\theta_*;

(2)它的方差为Var(θ^)=E[(θ^θ)(θ^θ)]=σ2nΣ^1\text{Var}(\widehat{\theta})=\mathbb{E}[(\widehat{\theta}-\theta_*)(\widehat{\theta}-\theta_*)^{\top}]=\frac{\sigma^{2}}{n}\widehat{\Sigma}^{-1}Σ^1\widehat{\Sigma}^{-1}通常被称为精度矩阵.

证明: (1) 由于yi=φ(xi)θ+εiy_{i}=\varphi(x_{i})^{\top}\theta_{*}+\varepsilon_{i}, 则E[y]=Φθ\mathbb{E}[y] = \Phi\theta_*, 从而

E[θ^]=(ΦΦ)1ΦΦθ=θ;\mathbb{E}[\widehat{\theta}]=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\Phi\theta_*=\theta_*;

(2) 因为θ^=1nΣ^1Φy,\widehat{\theta}=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y,θ^θ=(ΦΦ)1Φ(Φθ+ε)θ=(ΦΦ)1Φε\widehat{\theta}-\theta_*=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}(\Phi\theta_*+\varepsilon)-\theta_*=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon.

利用E[εε]=σ2I\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I, 我们有

var(θ^)=E[(ΦΦ)1ΦεεΦ(ΦΦ)1]=σ2(ΦΦ)1(ΦΦ)(ΦΦ)1=σ2(ΦΦ)1=σ2nΣ^1.\begin{align*} \text{var}(\widehat{\theta})&=\mathbb{E}[(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon\varepsilon^{\top}\Phi(\Phi^{\top}\Phi)^{-1}]\\ &=\sigma^{2}(\Phi^{\top}\Phi)^{-1}(\Phi^{\top}\Phi)(\Phi^{\top}\Phi)^{-1}\\ &=\sigma^{2}(\Phi^{\top}\Phi)^{-1}\\ &=\frac{\sigma^{2}}{n}\widehat{\Sigma}^{-1}. \end{align*}

超额风险#

命题: 普通最小二乘估计量的超额风险等于

E[R(θ^)]R=σ2dn\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* = \frac{\sigma^{2}d}{n}

证明: 利用OLS风险分解结论和E[θ^]=θ\mathbb{E}[\widehat{\theta}] = \theta_*, 我们有

E[R(θ^)]R=E[θ^θΣ^2]\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* = \mathbb{E}[\|\widehat{\theta} - \theta_*\|_{\widehat{\Sigma}}^{2}]

由于期望和迹都是线性算子且运算顺序可交换(E[tr(X)]=tr(E[X])\mathbb{E}[\text{tr}(X)]=\text{tr}(\mathbb{E}[X])Σ^\widehat{\Sigma}在固定设计下是固定的可提出到期望外, 最终得到tr(Σ^E[(θ^θ)(θ^θ)])\text{tr}(\widehat{\Sigma}\mathbb{E}[(\widehat{\theta} - \theta_*)(\widehat{\theta} - \theta_*)^{\top}])

var(θ^)=E[(θ^E[θ^])(θ^E[θ^])]\text{var}(\widehat{\theta})=\mathbb{E}[(\widehat{\theta} - \mathbb{E}[\widehat{\theta}])(\widehat{\theta} - \mathbb{E}[\widehat{\theta}])^{\top}], 又因为E[θ^]=θ\mathbb{E}[\widehat{\theta}] = \theta_*, 所以

E[(θ^θ)(θ^θ)]=var(θ^).\mathbb{E}[(\widehat{\theta} - \theta_*)(\widehat{\theta} - \theta_*)^{\top}]=\text{var}(\widehat{\theta}).

从而

E[θ^θΣ^2]=E[(θ^θ)Σ^(θ^θ)]=E[tr((θ^θ)Σ^(θ^θ))]=E[tr(Σ^(θ^θ)(θ^θ))]=E[R(θ^)]R=tr[var(θ^)Σ^].\begin{align*} \mathbb{E}[\|\widehat{\theta} - \theta_*\|_{\widehat{\Sigma}}^{2}]&=\mathbb{E}[(\widehat{\theta} - \theta_*)^{\top}\widehat{\Sigma}(\widehat{\theta} - \theta_*)]=\mathbb{E}[\text{tr}((\widehat{\theta} - \theta_*)^{\top}\widehat{\Sigma}(\widehat{\theta} - \theta_*))]\\ &=\mathbb{E}[\text{tr}(\widehat{\Sigma}(\widehat{\theta} - \theta_*)(\widehat{\theta} - \theta_*)^{\top})]=\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* \\ &= \text{tr}[\text{var}(\widehat{\theta})\widehat{\Sigma}]. \end{align*}

因此 E[R(θ^)]R=tr[var(θ^)Σ^]=σ2ntr(I)=σ2dn.\mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* = \text{tr}[\text{var}(\widehat{\theta})\widehat{\Sigma}] = \frac{\sigma^{2}}{n}\text{tr}(I) = \frac{\sigma^{2}d}{n}.

另一证明: 利用θ^θ=(ΦΦ)1Φε\widehat{\theta} - \theta_* = (\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon这一恒等式, 可得

E[R(θ^)]R=E[(ΦΦ)1ΦεΣ^2]=1nE[εΦ(ΦΦ)1ΦΦ(ΦΦ)1Φε]=1nE[εΦ(ΦΦ)1Φε]=1nE[εPε]=1nE[tr(Pεε)]=σ2ntr(P)=σ2dn\begin{align*} \mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^* &= \mathbb{E}[\|(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon\|_{\widehat{\Sigma}}^{2}]\\ &= \frac{1}{n}\mathbb{E}[\varepsilon^{\top}\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon]\\ &= \frac{1}{n}\mathbb{E}[\varepsilon^{\top}\Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}\varepsilon]\\ &= \frac{1}{n}\mathbb{E}[\varepsilon^{\top}P\varepsilon] = \frac{1}{n}\mathbb{E}[\text{tr}(P\varepsilon\varepsilon^{\top})] = \frac{\sigma^{2}}{n}\text{tr}(P) = \frac{\sigma^{2}d}{n} \end{align*}

其中我们用到了P=Φ(ΦΦ)1ΦP = \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}是到im(Φ)\text{im}(\Phi)Φ\Phi的值域)的正交投影矩阵, 且其维度为dd .

命题: (1-2) E[R^(θ^)]=E[R(θ^)]=ndnσ2\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})] = \mathbb{E}[\mathcal{R}(\widehat{\theta})]=\frac{n - d}{n}\sigma^{2}

(3) n>dn>d时, σ2\sigma^{2}的无偏估计量σ^2=yΦθ^22nd\hat{\sigma}^{2}=\frac{\|y - \Phi\widehat{\theta}\|_{2}^{2}}{n - d}

证明: 已知经验风险 R^(θ)=1nyΦθ22\hat{\mathcal{R}}(\theta)=\frac{1}{n}\|y - \Phi\theta\|_{2}^{2} 和固定设计风险 R(θ)=Ey[1nyΦθ22]\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right] 其中y=Φθ+εy = \Phi\theta_*+\varepsilon, E[ε]=0\mathbb{E}[\varepsilon]=0, E[εε]=σ2I\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I.

(1) 计算R^(θ^)\hat{\mathcal{R}}(\widehat{\theta})

y=Φθ+εy = \Phi\theta_*+\varepsilonθ^=(ΦΦ)1Φy\widehat{\theta}=(\Phi^{\top}\Phi)^{-1}\Phi^{\top}y代入R^(θ^)\hat{\mathcal{R}}(\widehat{\theta})可得:

R^(θ^)=1n(Φθ+ε)Φ(ΦΦ)1Φ(Φθ+ε)22=1n(IΦ(ΦΦ)1Φ)ε+(IΦ(ΦΦ)1Φ)Φθ22\begin{align*} \hat{\mathcal{R}}(\widehat{\theta})&=\frac{1}{n}\|(\Phi\theta_*+\varepsilon) - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}(\Phi\theta_*+\varepsilon)\|_{2}^{2}\\ &=\frac{1}{n}\|(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\varepsilon+(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\Phi\theta_*\|_{2}^{2}\\ \end{align*}

因为(IΦ(ΦΦ)1Φ)Φ=0(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\Phi = 0, 所以 R^(θ^)=1n(IΦ(ΦΦ)1Φ)ε22.\hat{\mathcal{R}}(\widehat{\theta})=\frac{1}{n}\|(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\varepsilon\|_{2}^{2}.

(2)计算E[R^(θ^)]\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})]

E[R^(θ^)]=1nE[ε(IΦ(ΦΦ)1Φ)(IΦ(ΦΦ)1Φ)ε]=1nE[ε(IΦ(ΦΦ)1Φ)ε]\begin{align*} \mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})]&=\frac{1}{n}\mathbb{E}[\varepsilon^{\top}(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})^{\top}(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\varepsilon]\\ &=\frac{1}{n}\mathbb{E}[\varepsilon^{\top}(I - \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top})\varepsilon]\\ \end{align*}

P=Φ(ΦΦ)1ΦP = \Phi(\Phi^{\top}\Phi)^{-1}\Phi^{\top}, 它是到im(Φ)\text{im}(\Phi)的正交投影矩阵, IPI - P也是正交投影矩阵, 且tr(P)=d\text{tr}(P)=d, tr(I)=n\text{tr}(I)=n, 则tr(IP)=nd\text{tr}(I - P)=n - d.

E[R^(θ^)]=1nE[ε(IP)ε]=1nE[tr((IP)εε)]=1ntr((IP)E[εε])=1ntr((IP)σ2I)=σ2ntr(IP)=ndnσ2\begin{align*} \mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})]&=\frac{1}{n}\mathbb{E}[\varepsilon^{\top}(I - P)\varepsilon]\\ &=\frac{1}{n}\mathbb{E}[\text{tr}((I - P)\varepsilon\varepsilon^{\top})]\\ &=\frac{1}{n}\text{tr}((I - P)\mathbb{E}[\varepsilon\varepsilon^{\top}])\\ &=\frac{1}{n}\text{tr}((I - P)\sigma^{2}I)\\ &=\frac{\sigma^{2}}{n}\text{tr}(I - P)\\ &=\frac{n - d}{n}\sigma^{2} \end{align*}

又因为在固定设计场景下, E[R^(θ^)]=E[R(θ^)]\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})] = \mathbb{E}[\mathcal{R}(\widehat{\theta})](期望针对噪声ε\varepsilon, 经验风险和设计风险期望等价 ), 所以E[R^(θ^)]=E[R(θ^)]=ndnσ2\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})] = \mathbb{E}[\mathcal{R}(\widehat{\theta})]=\frac{n - d}{n}\sigma^{2}.

(3) 当n>dn > d时, 设σ^2=yΦθ^22nd\hat{\sigma}^{2}=\frac{\|y - \Phi\widehat{\theta}\|_{2}^{2}}{n - d}, 对其求期望:

E[σ^2]=1ndE[yΦθ^22]=1nd×n×E[R^(θ^)]=1nd×n×ndnσ2=σ2\begin{align*} \mathbb{E}[\hat{\sigma}^{2}]&=\frac{1}{n - d}\mathbb{E}[\|y - \Phi\widehat{\theta}\|_{2}^{2}]\\ &=\frac{1}{n - d}\times n\times\mathbb{E}[\hat{\mathcal{R}}(\widehat{\theta})]\\ &=\frac{1}{n - d}\times n\times\frac{n - d}{n}\sigma^{2}\\ &=\sigma^{2} \end{align*}

因为E[σ^2]=σ2\mathbb{E}[\hat{\sigma}^{2}]=\sigma^{2}, 所以yΦθ^22nd\frac{\|y - \Phi\widehat{\theta}\|_{2}^{2}}{n - d}是噪声方差σ2\sigma^{2}的无偏估计量.

OLS随机设计分析#

随机设计:输入和输出都是随机的. 这是监督机器学习的经典场景, 目标是对未见过的数据进行泛化.

我们考虑xxyy都被视为随机变量, 并且每一对(xi,yi)(x_i, y_i)被假定是相互独立且同分布的, 其分布为dp(x,y)dp(x, y). 我们的目标是证明, 对于固定设计场景得到的超额风险上界, 即σ2d/n\sigma^{2}d / n, 在随机设计场景下仍然有效. 我们对联合分布dp(x,y)dp(x, y)做出以下假设, 这些假设是从固定设计场景转换到随机设计场景的:

  • 存在一个向量θRd\theta_*\in\mathbb{R}^{d}, 使得输入和输出之间的关系为y=φ(x)θ+εy = \varphi(x)^{\top}\theta_*+\varepsilon.

  • 噪声εR\varepsilon\in\mathbb{R}xx相互独立, 且E[ε]=0\mathbb{E}[\varepsilon]=0, 方差E[ε2]=σ2\mathbb{E}[\varepsilon^{2}]=\sigma^{2}.

基于上述假设, E(yx)=φ(x)θ\mathbb{E}(y|x)=\varphi(x)^{\top}\theta_*. 因此, 我们进行经验风险最小化, 且我们的函数类中包含贝叶斯预测器, 这种情况通常被称为模型设定正确的场景. 风险也有一个简单的表达式:

超额风险#

命题: 在上述线性模型下, 对于任意θRd\theta\in\mathbb{R}^{d}, 超额风险等于:

R(θ)R=θθΣ2\mathcal{R}(\theta)-\mathcal{R}^*=\|\theta - \theta_*\|_{\Sigma}^{2}

其中Σ:=E[φ(x)φ(x)]\Sigma:=\mathbb{E}[\varphi(x)\varphi(x)^{\top}]是(非中心化的)协方差矩阵, R=σ2\mathcal{R}^*=\sigma^{2} .

证明: 我们有:

R(θ)=E[(yθφ(x))2]=E[(φ(x)θ+εθφ(x))2]=E[(φ(x)θθφ(x))2]+E[ε2]=(θθ)Σ(θθ)+σ2\begin{align*} \mathcal{R}(\theta)&=\mathbb{E}[(y - \theta^{\top}\varphi(x))^{2}]\\ &=\mathbb{E}[(\varphi(x)^{\top}\theta_*+\varepsilon - \theta^{\top}\varphi(x))^{2}]\\ &=\mathbb{E}[(\varphi(x)^{\top}\theta_* - \theta^{\top}\varphi(x))^{2}]+\mathbb{E}[\varepsilon^{2}]\\ &=(\theta - \theta_*)^{\top}\Sigma(\theta - \theta_*)+\sigma^{2} \end{align*}

由此得到所需结果.

注意, 与固定设计场景的唯一区别是Σ^\widehat{\Sigma}Σ\Sigma取代. 我们现在可以表示普通最小二乘估计量的风险.

  • 性能下界部分:固定设计场景下得到的性能下界与OLS的上界匹配, 这体现了该理论的一致性和完整性. 在一般非最小二乘场景中证明类似结果更难, 说明最小二乘模型在理论分析上有一定优势, 也为后续研究其他模型提供了对比基础.

  • 随机设计分析部分:随机设计场景更贴近实际应用中数据的产生情况. 通过设定假设条件, 推导出随机设计最小二乘回归的超额风险公式. 与固定设计场景的对比, 突出了不同场景下模型分析的差异和联系. 这部分内容对于理解在随机数据情况下最小二乘回归的性能和风险评估非常重要, 也为进一步研究更复杂的随机模型奠定了基础.

期望超额风险#

命题: 在上述线性模型下, 假设Σ^\widehat{\Sigma}可逆, 普通最小二乘(OLS)估计量的期望超额风险等于

σ2nE[tr(ΣΣ^1)]\frac{\sigma^{2}}{n}\mathbb{E}[\text{tr}(\Sigma\widehat{\Sigma}^{-1})]

证明: 由于OLS估计量为θ^=1nΣ^1Φy=1nΣ^1Φ(Φθ+ε)=θ+1nΣ^1Φε\widehat{\theta}=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}(\Phi\theta_*+\varepsilon)=\theta_*+\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon, 我们有:

E[R(θ^)]R=E[(1nΣ^1Φε)Σ(1nΣ^1Φε)]=E[tr(Σ(1nΣ^1Φε)(1nΣ^1Φε))]=1n2E[tr(ΣΣ^1ΦεεΦΣ^1)]=1n2E[tr(ΣΣ^1ΦE[εε]ΦΣ^1)]=E[σ2n2tr(ΣΣ^1ΦΦΣ^1)]=E[σ2ntr(ΣΣ^1)]\begin{align*} \mathbb{E}[\mathcal{R}(\widehat{\theta})] - \mathcal{R}^*&=\mathbb{E}\left[\left(\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\right)^{\top}\Sigma\left(\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\right)\right]\\ &=\mathbb{E}\left[\text{tr}\left(\Sigma\left(\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\right)\left(\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\right)^{\top}\right)\right]=\frac{1}{n^{2}}\mathbb{E}\left[\text{tr}\left(\Sigma\widehat{\Sigma}^{-1}\Phi^{\top}\varepsilon\varepsilon^{\top}\Phi\widehat{\Sigma}^{-1}\right)\right]\\ &=\frac{1}{n^{2}}\mathbb{E}\left[\text{tr}\left(\Sigma\widehat{\Sigma}^{-1}\Phi^{\top}\mathbb{E}[\varepsilon\varepsilon^{\top}]\Phi\widehat{\Sigma}^{-1}\right)\right]=\mathbb{E}\left[\frac{\sigma^{2}}{n^{2}}\text{tr}\left(\Sigma\widehat{\Sigma}^{-1}\Phi^{\top}\Phi\widehat{\Sigma}^{-1}\right)\right]\\ &=\mathbb{E}\left[\frac{\sigma^{2}}{n}\text{tr}\left(\Sigma\widehat{\Sigma}^{-1}\right)\right] \end{align*}

因此, 要计算OLS估计量的期望风险, 我们需要计算E[tr(ΣΣ^1)]\mathbb{E}[\text{tr}(\Sigma\widehat{\Sigma}^{-1})]. 这里的一个难点是Σ^\widehat{\Sigma}可能不可逆. 在一些简单假设下(例如, φ(x)\varphi(x)Rd\mathbb{R}^{d}上有密度), 只要n>dn > d, Σ^\widehat{\Sigma}几乎肯定是可逆的, 然而其最小特征值可能非常小. 因此, 需要额外的假设来对其进行控制.


岭回归#

高维空间中的最小二乘法#

d/nd/n趋近于11时, 我们本质上是在记忆观测值yiy_i(也就是说, 例如当d=nd = nΨ\Psi是一个可逆的方阵时, θ=Φ1y\theta = \Phi^{-1}y会得到y=Φθy = \Phi\theta, 即普通最小二乘法会得到完美拟合, 但这对于未见数据的泛化通常是不利的).

此外, 当d>nd > n时, ΦΦ\Phi^{\top}\Phi不可逆, 正规方程会有一个线性子空间的解. 这些高维(dd很大)情况下普通最小二乘法的表现往往不尽如人意 .

岭最小二乘回归#

对于正则化参数λ>0\lambda > 0, 我们将岭最小二乘估计量θλ\theta_{\lambda}定义为以下式子的极小值点:

minθRd1nyΦθ22+λθ22\min_{\theta\in\mathbb{R}^{d}}\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}+\lambda\|\theta\|_{2}^{2}

岭回归估计量可以用闭式解的形式得到.

命题: 回顾Σ^=1nΦΦRd×d\widehat{\Sigma}=\frac{1}{n}\Phi^{\top}\Phi\in\mathbb{R}^{d\times d}. 则有

\widehat{\theta}_{\lambda}=\frac{1}{n}(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}y

证明: 与命题3.1的证明类似, 我们可以计算目标函数的梯度, 其等于2n(ΦΦθΦy)+2λθ\frac{2}{n}(\Phi^{\top}\Phi\theta - \Phi^{\top}y)+2\lambda\theta. 令梯度为00, 即可得到该估计量.

与普通最小二乘估计量一样, 我们可以在线性模型和固定设计假设下分析这个估计量的统计性质. 关于随机设计以及可能的无限维特征的分析, 见第7章.

命题: 在线性模型假设下(并且对于固定设计场景), 岭最小二乘估计量θ^λ=1nΣ^1Φy\widehat{\theta}_{\lambda}=\frac{1}{n}\widehat{\Sigma}^{-1}\Phi^{\top}y具有如下超额风险:

E[R(θ^λ)]R=λ2θ(Σ^+λI)2Σ^θ+σ2ntr[Σ^2(Σ^+λI)2]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})] - \mathcal{R}^*=\lambda^{2}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\theta_{*}+\frac{\sigma^{2}}{n}\text{tr}[\widehat{\Sigma}^{2}(\widehat{\Sigma}+\lambda I)^{-2}]

证明: 我们使用命题3.3中的风险分解, 将其分为偏差项BB和方差项VV . 因为E[θ^λ]=1n(Σ^+λI)1ΦΦθ=(Σ^+λI)1Σ^θ=θλ(Σ^+λI)1θ\mathbb{E}[\widehat{\theta}_{\lambda}]=\frac{1}{n}(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\Phi\theta_{*}=(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}\theta_{*}=\theta_{*}-\lambda(\widehat{\Sigma}+\lambda I)^{-1}\theta_{*}, 由此可得

B=E[θ^λ]θΣ^2=λ2θ(Σ^+λI)2Σ^θ\begin{align*} B&=\|\mathbb{E}[\widehat{\theta}_{\lambda}] - \theta_{*}\|_{\widehat{\Sigma}}^{2}\\ &=\lambda^{2}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\theta_{*} \end{align*}

对于方差项, 利用E[εε]=σ2I\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I这一事实, 我们有

V=E[θ^λE[θ^λ]Σ^2]=E[1n(Σ^+λI)1ΦεΣ^2]=E[1n2tr(εΦ(Σ^+λI)1Σ^(Σ^+λI)1Φε)]=E[1n2tr(ΦεεΦ(Σ^+λI)1Σ^(Σ^+λI)1)]=σ2ntr(Σ^(Σ^+λI)1Σ^(Σ^+λI)1)\begin{align*} V&=\mathbb{E}[\|\widehat{\theta}_{\lambda}-\mathbb{E}[\widehat{\theta}_{\lambda}]\|_{\widehat{\Sigma}}^{2}]=\mathbb{E}\left[\left\|\frac{1}{n}(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right\|_{\widehat{\Sigma}}^{2}\right]=\mathbb{E}\left[\frac{1}{n^{2}}\text{tr}\left(\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right)\right]\\ &=\mathbb{E}\left[\frac{1}{n^{2}}\text{tr}\left(\Phi^{\top}\varepsilon\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-1}\right)\right]=\frac{\sigma^{2}}{n}\text{tr}\left(\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-1}\right) \end{align*}

将偏差项和方差项相加, 即可得到该命题结论.

估计量的期望风险#

在随机设计场景中, 假设Σ^\widehat{\Sigma}可逆, 岭回归估计量的期望风险为

E[R(θ^λ)R]=λ2E[θ(Σ^+λI)1Σ(Σ^+λI)1θ]+σ2ntr[(Σ^+λI)2Σ^Σ]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]=\lambda^{2}\mathbb{E}\left[\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\theta_{*}\right]+\frac{\sigma^{2}}{n}\text{tr}\left[(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\Sigma\right]

证明:

已知线性模型y=Φθ+εy = \Phi\theta_*+\varepsilon, 其中E[ε]=0\mathbb{E}[\varepsilon]=0, E[εε]=σ2I\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I

岭回归估计量θ^λ=(1nΦΦ+λI)11nΦy\widehat{\theta}_{\lambda}=(\frac{1}{n}\Phi^{\top}\Phi+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}y

风险函数R(θ)=Ey[1nyΦθ22]\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right]

超额风险R(θ)R=θθΣ2\mathcal{R}(\theta)-\mathcal{R}^*=\|\theta - \theta_*\|_{\Sigma}^{2}, 这里Σ=E[φ(x)φ(x)]\Sigma = \mathbb{E}[\varphi(x)\varphi(x)^{\top}], R=σ2\mathcal{R}^*=\sigma^{2}.

计算θ^λθ\widehat{\theta}_{\lambda}-\theta_*

  • y=Φθ+εy = \Phi\theta_*+\varepsilon代入岭回归估计量θ^λ\widehat{\theta}_{\lambda}可得:
    • θ^λ=(1nΦΦ+λI)11nΦ(Φθ+ε)=(1nΦΦ+λI)11nΦΦθ+(1nΦΦ+λI)11nΦε\widehat{\theta}_{\lambda}=(\frac{1}{n}\Phi^{\top}\Phi+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}(\Phi\theta_*+\varepsilon)=(\frac{1}{n}\Phi^{\top}\Phi+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\Phi\theta_*+(\frac{1}{n}\Phi^{\top}\Phi+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon.

    • Σ^=1nΦΦ\widehat{\Sigma}=\frac{1}{n}\Phi^{\top}\Phi, 则θ^λ=(Σ^+λI)1Σ^θ+(Σ^+λI)11nΦε\widehat{\theta}_{\lambda}=(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon.

    • 所以θ^λθ=(Σ^+λI)1Σ^θ+(Σ^+λI)11nΦεθ=λ(Σ^+λI)1θ+(Σ^+λI)11nΦε\widehat{\theta}_{\lambda}-\theta_*=(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon-\theta_*= - \lambda(\widehat{\Sigma}+\lambda I)^{-1}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon.

计算E[R(θ^λ)R]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]

  • 根据超额风险公式R(θ^λ)R=θ^λθΣ2=(θ^λθ)Σ(θ^λθ)\mathcal{R}(\widehat{\theta}_{\lambda})- \mathcal{R}^*=\|\widehat{\theta}_{\lambda}-\theta_*\|_{\Sigma}^{2}=(\widehat{\theta}_{\lambda}-\theta_*)^{\top}\Sigma(\widehat{\theta}_{\lambda}-\theta_*), 对其求期望:

  • E[R(θ^λ)R]=E[(λ(Σ^+λI)1θ+(Σ^+λI)11nΦε)Σ(λ(Σ^+λI)1θ+(Σ^+λI)11nΦε)]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]=\mathbb{E}\left[(- \lambda(\widehat{\Sigma}+\lambda I)^{-1}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon)^{\top}\Sigma(- \lambda(\widehat{\Sigma}+\lambda I)^{-1}\theta_*+(\widehat{\Sigma}+\lambda I)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon)\right].

  • E[R(θ^λ)R]=E[λ2θ(Σ^+λI)1Σ(Σ^+λI)1θ2λnθ(Σ^+λI)1Σ(Σ^+λI)1Φε+1n2εΦ(Σ^+λI)1Σ(Σ^+λI)1Φε]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]=\mathbb{E}\left[\lambda^{2}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\theta_*-\frac{2\lambda}{n}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon+\frac{1}{n^{2}}\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right].

  • 因为E[ε]=0\mathbb{E}[\varepsilon]=0, 所以E[2λnθ(Σ^+λI)1Σ(Σ^+λI)1Φε]=0\mathbb{E}\left[-\frac{2\lambda}{n}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right]=0.

  • 对于E[1n2εΦ(Σ^+λI)1Σ(Σ^+λI)1Φε]\mathbb{E}\left[\frac{1}{n^{2}}\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right]

  • 根据E[εε]=σ2I\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I, 则E[1n2εΦ(Σ^+λI)1Σ(Σ^+λI)1Φε]=σ2n2E[tr(ΦΦ(Σ^+λI)1Σ(Σ^+λI)1)]\mathbb{E}\left[\frac{1}{n^{2}}\varepsilon^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}\varepsilon\right]=\frac{\sigma^{2}}{n^{2}}\mathbb{E}\left[\text{tr}\left(\Phi^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\right)\right].

  • 又因为Σ^=1nΦΦ\widehat{\Sigma}=\frac{1}{n}\Phi^{\top}\Phi, 所以σ2n2E[tr(ΦΦ(Σ^+λI)1Σ(Σ^+λI)1)]=σ2nE[tr((Σ^+λI)2Σ^Σ)]\frac{\sigma^{2}}{n^{2}}\mathbb{E}\left[\text{tr}\left(\Phi^{\top}\Phi(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\right)\right]=\frac{\sigma^{2}}{n}\mathbb{E}\left[\text{tr}\left((\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\Sigma\right)\right].

  • 综上可得E[R(θ^λ)R]=λ2E[θ(Σ^+λI)1Σ(Σ^+λI)1θ]+σ2ntr[(Σ^+λI)2Σ^Σ]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda}) - \mathcal{R}^*]=\lambda^{2}\mathbb{E}\left[\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-1}\Sigma(\widehat{\Sigma}+\lambda I)^{-1}\theta_{*}\right]+\frac{\sigma^{2}}{n}\text{tr}\left[(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\Sigma\right].

正则化参数的选择#

命题: 当选择λ=σtr(Σ^)θ2n\lambda^{*}=\frac{\sigma\sqrt{\text{tr}(\widehat{\Sigma})}}{\|\theta_{*}\|_{2}\sqrt{n}}时, 我们有

E[R(θ^λ)]Rσtr(Σ^)θ2n\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda^{*}})] - \mathcal{R}^*\leq\frac{\sigma\sqrt{\text{tr}(\widehat{\Sigma})}\|\theta_{*}\|_{2}}{\sqrt{n}}

证明: 我们利用(Σ^+λI)2λΣ^(\widehat{\Sigma}+\lambda I)^{-2}\lambda\widehat{\Sigma}的特征值小于12\frac{1}{2}.

对于Σ^\widehat{\Sigma}的所有特征值μ\mu, (μ+λ)2μλ1/2(μ+λ)22λμ(\mu + \lambda)^{-2}\mu\lambda\leq1/2\Leftrightarrow(\mu + \lambda)^{2}\geq2\lambda\mu

B=λ2θ(Σ^+λI)2Σ^θ=λθ(Σ^+λI)2λΣ^θλ2θ22B = \lambda^{2}\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}\theta_{*}=\lambda\theta_{*}^{\top}(\widehat{\Sigma}+\lambda I)^{-2}\lambda\widehat{\Sigma}\theta_{*}\leq\frac{\lambda}{2}\|\theta_{*}\|_{2}^{2}

类似地, 我们有

V=σ2ntr[Σ^2(Σ^+λI)2]=σ2ntr[Σ^λΣ^(Σ^+λI)2]σ2trΣ^2λn.V=\frac{\sigma^{2}}{n}\text{tr}[\widehat{\Sigma}^{2}(\widehat{\Sigma}+\lambda I)^{-2}]=\frac{\sigma^{2}}{n}\text{tr}[\widehat{\Sigma}\lambda\widehat{\Sigma}(\widehat{\Sigma}+\lambda I)^{-2}]\leq\frac{\sigma^{2}\text{tr}\widehat{\Sigma}}{2\lambda n}.

λ\lambda^{*}(其选择是为了最小化B+VB + V的上界)代入即可得到结果.

我们可以得出以下几点结论:

  • 实验部分:通过多项式回归实验研究正则化参数λ\lambda对偏差和方差的影响, 能直观呈现其单调性和最优值, 这对于理解岭回归性能很重要. 比如在实际应用中, 我们可以根据实验结果快速找到合适的λ\lambda范围, 提升模型效果.

  • λ\lambda选择部分:给出了一种理论上的最优λ\lambda选择方式, 能帮助我们在岭回归中获得比OLS更好的风险界. 不过在实际中, σ\sigmaθ\theta_{*}等参数可能未知, 需要通过估计等方法来确定λ\lambda^{*}, 这增加了应用的复杂性.

  • 证明部分:利用特征值的性质推导偏差和方差的界, 从而得出命题结论. 这种理论推导为我们理解岭回归的风险性质提供了坚实基础, 也为后续改进和拓展模型提供了方向.

练习: 计算通过对θΛθ\theta^{\top}\Lambda\theta进行正则化得到的估计量的期望风险, 其中ΛRd×d\Lambda\in\mathbb{R}^{d\times d}是一个正定矩阵.

证明: 定义相关变量和目标函数

  • 给定线性模型y=Φθ+εy = \Phi\theta_*+\varepsilon, 其中E[ε]=0\mathbb{E}[\varepsilon]=0, E[εε]=σ2I\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I. 通过对θΛθ\theta^{\top}\Lambda\theta进行正则化, 目标函数为J(θ)=1nyΦθ22+λθΛθJ(\theta)=\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}+\lambda\theta^{\top}\Lambda\theta, 我们需要找到使J(θ)J(\theta)最小的θ\theta, 记为θ^λ\widehat{\theta}_{\lambda}.
  1. 计算θ^λ\widehat{\theta}_{\lambda}
    • J(θ)J(\theta)求梯度:
      • θJ(θ)=2nΦ(Φθy)+2λΛθ\nabla_{\theta}J(\theta)=\frac{2}{n}\Phi^{\top}(\Phi\theta - y)+2\lambda\Lambda\theta.
      • θJ(θ)=0\nabla_{\theta}J(\theta) = 0, 则2nΦ(Φθy)+2λΛθ=0\frac{2}{n}\Phi^{\top}(\Phi\theta - y)+2\lambda\Lambda\theta = 0.
      • 展开可得2nΦΦθ2nΦy+2λΛθ=0\frac{2}{n}\Phi^{\top}\Phi\theta-\frac{2}{n}\Phi^{\top}y + 2\lambda\Lambda\theta = 0.
      • 进一步整理为(1nΦΦ+λΛ)θ=1nΦy(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)\theta=\frac{1}{n}\Phi^{\top}y.
      • 假设(1nΦΦ+λΛ)(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)可逆, 则θ^λ=(1nΦΦ+λΛ)11nΦy\widehat{\theta}_{\lambda}=(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}y.
  2. 计算期望风险E[R(θ^λ)]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})]
    • 已知风险函数R(θ)=Ey[1nyΦθ22]\mathcal{R}(\theta)=\mathbb{E}_{y}\left[\frac{1}{n}\|y - \Phi\theta\|_{2}^{2}\right], 将y=Φθ+εy = \Phi\theta_*+\varepsilon代入可得:
      • R(θ)=Eε[1nΦθ+εΦθ22]=Eε[1nΦ(θθ)+ε22]\mathcal{R}(\theta)=\mathbb{E}_{\varepsilon}\left[\frac{1}{n}\|\Phi\theta_*+\varepsilon - \Phi\theta\|_{2}^{2}\right]=\mathbb{E}_{\varepsilon}\left[\frac{1}{n}\|\Phi(\theta_* - \theta)+\varepsilon\|_{2}^{2}\right].
      • 根据向量模的平方展开a+b22=a22+b22+2ab\|\vec{a}+\vec{b}\|_{2}^{2}=\|\vec{a}\|_{2}^{2}+\|\vec{b}\|_{2}^{2}+2\vec{a}^{\top}\vec{b}, 则R(θ)=1nEε[Φ(θθ)22+ε22+2(Φ(θθ))ε]\mathcal{R}(\theta)=\frac{1}{n}\mathbb{E}_{\varepsilon}\left[\|\Phi(\theta_* - \theta)\|_{2}^{2}+\|\varepsilon\|_{2}^{2}+2(\Phi(\theta_* - \theta))^{\top}\varepsilon\right].
      • 因为Eε[ε]=0\mathbb{E}_{\varepsilon}[\varepsilon]=0, 所以R(θ)=1nΦ(θθ)22+1nEε[ε22]\mathcal{R}(\theta)=\frac{1}{n}\|\Phi(\theta_* - \theta)\|_{2}^{2}+\frac{1}{n}\mathbb{E}_{\varepsilon}[\|\varepsilon\|_{2}^{2}], 又Eε[ε22]=nσ2\mathbb{E}_{\varepsilon}[\|\varepsilon\|_{2}^{2}]=n\sigma^{2}, 则R(θ)=1nΦ(θθ)22+σ2\mathcal{R}(\theta)=\frac{1}{n}\|\Phi(\theta_* - \theta)\|_{2}^{2}+\sigma^{2}.
    • 计算E[R(θ^λ)]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})]
      • E[R(θ^λ)]=E[1nΦ(θθ^λ)22+σ2]=σ2+E[1nΦ(θθ^λ)22]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})]=\mathbb{E}\left[\frac{1}{n}\|\Phi(\theta_* - \widehat{\theta}_{\lambda})\|_{2}^{2}+\sigma^{2}\right]=\sigma^{2}+\mathbb{E}\left[\frac{1}{n}\|\Phi(\theta_* - \widehat{\theta}_{\lambda})\|_{2}^{2}\right].
      • θ^λ=(1nΦΦ+λΛ)11nΦy\widehat{\theta}_{\lambda}=(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}yy=Φθ+εy = \Phi\theta_*+\varepsilon代入θθ^λ\theta_* - \widehat{\theta}_{\lambda}
        • θθ^λ=θ(1nΦΦ+λΛ)11nΦ(Φθ+ε)\theta_* - \widehat{\theta}_{\lambda}=\theta_* - (\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}(\Phi\theta_*+\varepsilon).
        • 进一步化简θθ^λ=(I(1nΦΦ+λΛ)11nΦΦ)θ(1nΦΦ+λΛ)11nΦε\theta_* - \widehat{\theta}_{\lambda}=(I - (\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}\Phi)\theta_* - (\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}\varepsilon.
      • 计算E[1nΦ(θθ^λ)22]\mathbb{E}\left[\frac{1}{n}\|\Phi(\theta_* - \widehat{\theta}_{\lambda})\|_{2}^{2}\right]
        • E[1nΦ(θθ^λ)22]=E[1n(θθ^λ)ΦΦ(θθ^λ)]\mathbb{E}\left[\frac{1}{n}\|\Phi(\theta_* - \widehat{\theta}_{\lambda})\|_{2}^{2}\right]=\mathbb{E}\left[\frac{1}{n}(\theta_* - \widehat{\theta}_{\lambda})^{\top}\Phi^{\top}\Phi(\theta_* - \widehat{\theta}_{\lambda})\right].
        • 分别计算各项的期望, 利用E[ε]=0\mathbb{E}[\varepsilon]=0E[εε]=σ2I\mathbb{E}[\varepsilon\varepsilon^{\top}]=\sigma^{2}I进行化简.
        • 最终可得E[R(θ^λ)]=σ2+θ(1nΦΦ+λΛ)11nΦΦ(1nΦΦ+λΛ)1θ+σ2ntr[ΦΦ(1nΦΦ+λΛ)2]\mathbb{E}[\mathcal{R}(\widehat{\theta}_{\lambda})]=\sigma^{2}+\theta_{*}^{\top}(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\frac{1}{n}\Phi^{\top}\Phi(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-1}\theta_{*}+\frac{\sigma^{2}}{n}\text{tr}\left[\Phi^{\top}\Phi(\frac{1}{n}\Phi^{\top}\Phi+\lambda\Lambda)^{-2}\right].

下界#

为了在固定设计场景中给出一个下界, 我们将仅考虑高斯噪声, 即ε\varepsilon服从联合高斯分布, 均值为00, 协方差矩阵为σ2I\sigma^{2}I(添加这一额外假设只会使下界稍小一点). 模型中唯一的不确定性在于θ\theta_*的取值. 为了明确体现对θ\theta_*的依赖, 用Rθ(θ)\mathcal{R}_{\theta_*}(\theta)表示超额风险

Rθ(θ)=θθΣ^2\mathcal{R}_{\theta_*}(\theta)=\|\theta - \theta_*\|_{\widehat{\Sigma}}^{2}

我们的目标是求以下式子的下界

supθRdEεN(0,σ2I)Rθ(A(Φθ+ε))\sup_{\theta_*\in\mathbb{R}^{d}}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))

其中上确界是对所有从Rn\mathbb{R}^{n}Rd\mathbb{R}^{d}的函数A\mathcal{A}取的(这些函数可以依赖于观测到的确定性量, 比如Φ\Phi). 实际上, 算法将y=Φθ+εRny = \Phi\theta_*+\varepsilon\in\mathbb{R}^{n}作为输入, 并输出一个Rd\mathbb{R}^{d}中的参数向量.

在学习算法的贝叶斯分析中, 通过关于θ\theta_*的某种概率的期望来给出上述上确界的下界, 在贝叶斯统计学中, 这种概率分布被称为先验分布. 也就是说, 对于任何算法/估计量A\mathcal{A}, 我们有

supθRdEεN(0,σ2I)Rθ(A(Φθ+ε))EθN(0,σ2λnI)EεN(0,σ2I)Rθ(A(Φθ+ε))\sup_{\theta_*\in\mathbb{R}^{d}}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))\geq\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))

在这里, 我们选择均值为00、协方差矩阵为σ2λnI\frac{\sigma^{2}}{\lambda n}I的正态分布作为先验分布, 因为这将使得计算可以得到闭式解.

利用超额风险的表达式(并忽略加性常数σ2=R\sigma^{2}=\mathcal{R}^* ), 我们由此得到下界

EθN(0,σ2λnI)EεN(0,σ2I)A(Φθ+ε)θΣ^2\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|\mathcal{A}(\Phi\theta_*+\varepsilon)-\theta_*\|_{\widehat{\Sigma}}^{2}

我们需要针对A\mathcal{A}最小化这个下界. 通过使θ\theta_*成为随机变量, 我们现在得到了(θ,ε)(\theta_*,\varepsilon)的联合高斯分布. (θ,y)=(θ,Φθ+ε)(\theta_*,y)=(\theta_*,\Phi\theta_*+\varepsilon)的联合分布也是均值为00的高斯分布, 协方差矩阵为

(σ2λnIσ2λnΦσ2λnΦσ2λnΦΦ+σ2I)=σ2λn(IΦΦΦΦ+λnI)\begin{pmatrix} \frac{\sigma^{2}}{\lambda n}I & \frac{\sigma^{2}}{\lambda n}\Phi^{\top}\\ \\ \frac{\sigma^{2}}{\lambda n}\Phi & \frac{\sigma^{2}}{\lambda n}\Phi\Phi^{\top}+\sigma^{2}I \end{pmatrix}=\frac{\sigma^{2}}{\lambda n} \begin{pmatrix} I & \Phi^{\top}\\ \\ \Phi & \Phi\Phi^{\top}+\lambda nI \end{pmatrix}

这将通过以yy为条件来完成, 即写成

EθN(0,σ2λnI)EεN(0,σ2I)A(Φθ+ε)θΣ^2=E(θ,y)A(y)θΣ^2=Rn(RdA(y)θΣ^2dp(θy))dp(y)\begin{align*} \mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|\mathcal{A}(\Phi\theta_*+\varepsilon)-\theta_*\|_{\widehat{\Sigma}}^{2}&=\mathbb{E}_{(\theta_*,y)}\|\mathcal{A}(y)-\theta_*\|_{\widehat{\Sigma}}^{2}\\ &=\int_{\mathbb{R}^{n}}\left(\int_{\mathbb{R}^{d}}\|\mathcal{A}(y)-\theta_*\|_{\widehat{\Sigma}}^{2}dp(\theta_*|y)\right)dp(y) \end{align*}

因此, 对于每个yy, 最优的A(y)\mathcal{A}(y)必须使RdA(y)θΣ^2dp(θy)\int_{\mathbb{R}^{d}}\|\mathcal{A}(y)-\theta_*\|_{\widehat{\Sigma}}^{2}dp(\theta_*|y)最小化, 而这恰好是给定yyθ\theta_*的后验均值.

当我们计算回归的贝叶斯预测器时, 用于最小化期望平方偏差(即期望)的向量正是根据分布dp(θy)dp(\theta_*|y)得到的.

由于(θ,y)(\theta_*,y)的联合分布是具有已知参数的高斯分布, 我们利用这样一个性质:对于高斯变量, 给定yy的后验均值等于给定yy的后验众数, 也就是说, 它可以通过对关于θ\theta_*的对数似然logp(θ,y)\log p(\theta_*,y)求最大值得到. 忽略常数项, 并利用ε\varepsilonθ\theta_*的独立性, 这个对数似然为

12σ2ε2λn2σ2θ22=12σ2yΦθ2λn2σ2θ22-\frac{1}{2\sigma^{2}}\|\varepsilon\|^{2}-\frac{\lambda n}{2\sigma^{2}}\|\theta_*\|_{2}^{2}=-\frac{1}{2\sigma^{2}}\|y - \Phi\theta_*\|^{2}-\frac{\lambda n}{2\sigma^{2}}\|\theta_*\|_{2}^{2}

这恰好(相差一个符号和一个常数)是岭回归的代价函数. 因此, 我们有: A(y)=(ΦΦ+λnI)1Φy,\mathcal{A}^*(y)=(\Phi^{\top}\Phi + \lambda nI)^{-1}\Phi^{\top}y, 这正是岭回归估计量θ^λ.\widehat{\theta}_{\lambda}. 然后, 我们可以计算相应的最优风险, 得到:

infAsupθRdEεN(0,σ2I)Rθ(A(Φθ+ε))RinfAEθN(0,σ2λnI)EεN(0,σ2I)Rθ(A(Φθ+ε))R(使用公式(3.6))=EθN(0,σ2λnI)EεN(0,σ2I)Rθ(A(Φθ+ε))R(使用上述推理)=EθN(0,σ2λnI)EεN(0,σ2I)A(Φθ+ε)θΣ^2(使用风险的表达式)=EθN(0,σ2λnI)EεN(0,σ2I)(ΦΦ+λnI)1Φ(Φθ+ε)θΣ^2(使用闭式表达式)=EθN(0,σ2λnI)EεN(0,σ2I)(ΦΦ+λnI)1Φελn(ΦΦ+λnI)1θΣ^2=EθN(0,σ2λnI)λn(ΦΦ+λnI)1θΣ^2+EεN(0,σ2I)(ΦΦ+λnI)1ΦεΣ^2(由于独立性)=σ2λn(λn)21n2tr[(Σ^+λI)2Σ^]+σ2ntr[(Σ^+λI)2Σ^2]=σ2ntr[(Σ^+λI)1Σ^]\begin{align*} &\inf_{\mathcal{A}}\sup_{\theta_*\in\mathbb{R}^{d}}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))-\mathcal{R}^*\\ \geqslant&\inf_{\mathcal{A}}\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))-\mathcal{R}^*\text{(使用公式(3.6))}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}^*(\Phi\theta_*+\varepsilon))-\mathcal{R}^*\text{(使用上述推理)}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|\mathcal{A}^*(\Phi\theta_*+\varepsilon)-\theta_*\|_{\widehat{\Sigma}}^{2}\text{(使用风险的表达式)}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|(\Phi^{\top}\Phi + \lambda nI)^{-1}\Phi^{\top}(\Phi\theta_*+\varepsilon)-\theta_*\|_{\widehat{\Sigma}}^{2}\text{(使用闭式表达式)}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|(\Phi^{\top}\Phi + \lambda nI)^{-1}\Phi^{\top}\varepsilon - \lambda n(\Phi^{\top}\Phi + \lambda nI)^{-1}\theta_*\|_{\widehat{\Sigma}}^{2}\\ =&\mathbb{E}_{\theta_*\sim\mathcal{N}(0,\frac{\sigma^{2}}{\lambda n}I)}\|-\lambda n(\Phi^{\top}\Phi + \lambda nI)^{-1}\theta_*\|_{\widehat{\Sigma}}^{2}+\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\|(\Phi^{\top}\Phi + \lambda nI)^{-1}\Phi^{\top}\varepsilon\|_{\widehat{\Sigma}}^{2}\text{(由于独立性)}\\ =&\frac{\sigma^{2}}{\lambda n}(\lambda n)^{2}\frac{1}{n^{2}}\text{tr}[(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}]+\frac{\sigma^{2}}{n}\text{tr}[(\widehat{\Sigma}+\lambda I)^{-2}\widehat{\Sigma}^{2}]\\ =&\frac{\sigma^{2}}{n}\text{tr}[(\widehat{\Sigma}+\lambda I)^{-1}\widehat{\Sigma}] \end{align*}

λ\lambda趋于00时, 这个风险趋于σ2dn\frac{\sigma^{2}d}{n}. 这表明

infAsupθRdEεN(0,σ2I)Rθ(A(Φθ+ε))σ2dn\inf_{\mathcal{A}}\sup_{\theta_*\in\mathbb{R}^{d}}\mathbb{E}_{\varepsilon\sim\mathcal{N}(0,\sigma^{2}I)}\mathcal{R}_{\theta_*}(\mathcal{A}(\Phi\theta_*+\varepsilon))\geqslant\frac{\sigma^{2}d}{n}
「机器学习」线性最小二乘回归
https://blog.mcj.life/posts/250320机器学习线性最小二乘回归/
Author
CiMorn
Published at
2025-03-21