线性最小二乘回归中的风险#
给定输入/输出、特征/变量的观测值(xi,yi)∈X×Y, i=1,…,n(训练数据), 当给定新的x∈X时, 使用回归函数f预测y∈Y(测试数据), 使y≈f(x). 假设Y是R的子集, 使用平方损失ℓ(y,z)=(y−z)2, 最优预测器为f∗(x)=E(y∣x)
函数假设#
仅考虑fθ(x)关于θ是线性的情况, 假设其存在于向量空间Rd.
注意fθ(x)关于x线性和关于θ线性不同. 虽假设fθ(x)关于参数θ线性, 但不意味着关于输入x线性, 若X不是向量空间, 关于x线性的概念可能无意义.
通过里斯表示定理, 对任意x∈X, 在Rd中存在向量φ(x), 使得fθ(x)=φ(x)⊤θ, φ(x)∈Rd通常称为特征向量, 假设其已知且可显式计算. 此时考虑最小化R(θ):=n1∑i=1n(yi−φ(xi)⊤θ)2.
当X⊂Rd时, 可额外假设fθ是仿射函数, 通过φ(x)=(x1)∈Rd+1得到. 其他经典假设是φ(x)由单项式组成. 在第7章(核方法)中可考虑无限维的特征.
经验风险#
- 公式:
R^(θ)=n1∥y−Φθ∥22=n1∑i=1n(yi−φ(xi)⊤θ)2.
n为样本数量, y是观测值向量, Φ是设计矩阵, θ是模型参数向量, φ(xi)表示第i个样本xi对应的特征向量
- 意义:基于给定观测数据衡量模型预测值与真实值差异, 反映模型在已知样本上的拟合程度
经验风险最小化#
- 选择由参数θ∈Θ参数化的预测函数族fθ:X→Y, 最小化经验风险为
n1i=1∑n(yi−fθ(xi))2得到估计量θ∈argminn1∑i=1n(yi−fθ(xi))2
贝叶斯预测器f∗不属于函数类{fθ,θ∈Θ}, 即模型存在误设.
固定设计风险#
公式:
R(θ)=Ey[n1∥y−Φθ∥22]=Ey[n1∑i=1n(yi−φ(xi)⊤θ)2]
Ey表示对y求期望
意义:在固定输入数据情况下, 对所有可能输出求平均的预测误差, 从宏观角度评估模型性能, 反映模型在固定输入下对于不同输出的平均预测误差, 体现模型的泛化能力
超额风险#
普通最小二乘(OLS)估计量#
满列秩假设与过定问题#
假设矩阵Φ∈Rn×d具有满列秩, 即Φ的秩为d. 此时, 该问题被称作“过定”问题, 必然满足d≤n. 这一条件等价于假设Φ⊤Φ∈Rd×d是可逆的
当Φ具有满列秩时, 经验风险R(θ)=n1∥y−Φθ∥22 的极小值点是唯一的, 这个极小值点被称为普通最小二乘(OLS)估计量
闭式解推导#
命题: 记(非中心化的)经验协方差矩阵为Σ:=n1Φ⊤Φ∈Rd×d, 则
θ=n1Σ−1Φ⊤y.
证明: 函数R是强制的(在无穷远处趋于无穷大)且连续, 所以至少存在一个极小值点. 并且该函数可微, 因此极小值点θ需满足R′(θ)=0.
对于所有θ∈Rd,
R(θ)=n1(∥y∥22−2θ⊤Φ⊤y+θ⊤Φ⊤Φθ)和
R′(θ)=n2(Φ⊤Φθ−Φ⊤y).令R′(θ)=0 得到正规方程
Φ⊤Φθ=Φ⊤y,则
θ=(Φ⊤Φ)−1Φ⊤y=n1Σ−1Φ⊤y.几何解释#
P=Φ(Φ⊤Φ)−1Φ⊤是到im(Φ)的正交投影

证明:
(1) 证明P是投影矩阵(即P2=P)
P2=[Φ(Φ⊤Φ)−1Φ⊤][Φ(Φ⊤Φ)−1Φ⊤]=P.(2) 证明P是正交投影矩阵(即P=P⊤)
P⊤=[Φ(Φ⊤Φ)−1Φ⊤]⊤=(Φ⊤)⊤[(Φ⊤Φ)−1]⊤Φ⊤=P.则P既是投影矩阵又满足对称性, 所以P是正交投影矩阵.
(3) 证明P将向量投影到im(Φ)
对于任意u∈im(Φ), 存在a∈Rd使得u=Φa, 则
Pu=Φ(Φ⊤Φ)−1Φ⊤(Φa)=u.这表明P将im(Φ)中的向量投影到自身, 即P将向量投影到im(Φ)上.
(4) 证明预测向量Φθ=Φ(Φ⊤Φ)−1Φ⊤y是y到im(Φ)的正交投影
已知θ=(Φ⊤Φ)−1Φ⊤y, 则预测向量
Φθ=Φ[(Φ⊤Φ)−1Φ⊤y].又因为P=Φ(Φ⊤Φ)−1Φ⊤, 所以
Φθ=Py.根据前面已证明的P是到im(Φ)的正交投影矩阵, 对于向量y∈Rn, Φθ=Py意味着预测向量Φθ是y经过正交投影矩阵P作用后的结果, 即预测向量Φθ是Rn中的向量y到im(Φ)⊂Rn的正交投影.
数值求解#
闭式解的局限性#
普通最小二乘估计的闭式解θ=(Φ⊤Φ)−1Φ⊤y虽便于理论分析, 但存在显著缺点:
稳定性问题:对Φ⊤Φ求逆在某些情况下不稳定, 容易受到数值误差的影响.
计算成本问题:当特征维度d较大时, 求逆运算的计算成本很高. 因此, 通常更倾向于使用其他方法.
QR分解#
QR分解原理:QR分解将矩阵Φ分解为Φ=QR, 其中Q∈Rn×d的列向量是正交单位向量, R∈Rd×d是上三角矩阵.
QR分解求解普通最小二乘推导: 矩阵Φ∈Rn×d可进行QR分解, 即Φ=QR, 其中Q∈Rn×d的列向量为正交单位向量(满足Q⊤Q=Id, Id为d阶单位矩阵), R∈Rd×d是上三角矩阵, 则
(Φ⊤Φ)θ=Φ⊤y⟺R⊤Q⊤QRθ=R⊤Q⊤y⟺Rθ=Q⊤y最后将其转化为上三角线性方程组, 可简便求解θ, 计算比直接对Φ⊤Φ求逆高效, 时间复杂度为O(d3).
OLS固定设计分析#
我们假设输入数据(x1,…,xn)不是随机的, 并且我们只关注在这些输入点上获得较小的预测误差. 或者, 这可以被看作是一个预测问题, 其中输入分布dp(x)是(x1,…,xn)的经验分布.
目标是最小化固定设计风险(此时Φ是确定的):
R(θ)=Ey[n1i=1∑n(yi−φ(xi)⊤θ)2]=Ey[n1∥y−Φθ∥22]
现在我们假设Φ是确定性的, Σ=n1Φ⊤Φ是可逆的, 我们假设:
- 存在一个向量θ∗∈Rd, 使得对于i∈{1,…,n}, 输入和输出之间的关系为
yi=φ(xi)⊤θ∗+εi- 对于所有i∈{1,…,n}, εi相互独立, 期望E[εi]=0, 方差E[εi2]=σ2.
噪声方差的作用:噪声方差σ2衡量了模型预测值与实际观测值之间的平均误差程度. 在模型选择和评估中, 它是一个重要的指标, 较小的σ2通常意味着模型的拟合效果更好, 对数据的解释能力更强.
##与最大似然估计的关系 令噪声服从均值为0且方差为σ2的高斯分布, 也就是 εi=yi−φ(xi)⊤θ∗∼N(0,σ2), 那么θ∗的最小均方估计量与最大似然估计量是一致的(这里假设Φ是固定的). 利用独立性和正态分布的概率密度函数, y的概率密度/似然函数为:
p(y∣θ,σ2)=i=1∏n2πσ21exp(−2σ2(yi−φ(xi)⊤θ)2)取对数并去掉常数项后, 最大似然估计量(θ~,σ~2)会使下式达到最小
2σ21i=1∑n(yi−φ(xi)⊤θ)2+2nlog(σ2)原理本质:这种一致性的本质在于, 当噪声是高斯分布时, 最小化均方误差等同于最大化数据出现的似然. 最小二乘法从误差平方和最小的角度出发, 而最大似然估计从概率最大的角度出发, 在高斯噪声假设下二者殊途同归.
应用场景:在许多实际问题中, 比如线性回归模型, 噪声通常可以近似看作高斯分布. 因此, 我们既可以用最小二乘法快速求解参数, 也可以从最大似然估计的角度去理解模型的合理性和参数估计的统计性质.
局限性:然而, 当噪声不服从高斯分布时, 最小均方估计量和最大似然估计量就不再等价. 此时, 需要根据噪声的实际分布来选择合适的估计方法, 以获得更准确的参数估计.
练习: σ2的σ2的最大似然估计值是 n1∑i=1n(yi−φ(xi)⊤θ)2.
可通过对最大似然估计函数求关于σ2的极值, 进而得到σ2的最大似然估计值σ2.
证明: 已知在高斯噪声假设下, 取对数并去掉常数项后, 最大似然估计量(θ,σ2)会最小化下面的式子: L(θ,σ2)=2σ21∑i=1n(yi−φ(xi)⊤θ)2+2nlog(σ2) 将θ视为已知量(因为这里只对σ2求极值 ), 令zi=yi−φ(xi)⊤θ, 则
L(σ2)=2σ21i=1∑nzi2+2nlog(σ2).从而
dσ2dL(σ2)=dσ2d(2σ21i=1∑nzi2+2nlog(σ2))=−2(σ2)21i=1∑nzi2+2σ2n令dσ2dL(σ2)=0, 即
−2(σ2)21i=1∑nzi2+2σ2n=0⟺i=1∑nzi2=nσ2⟺σ2=n1i=1∑nzi2将zi=yi−φ(xi)⊤θ代回, 可得σ2=n1∑i=1n(yi−φ(xi)⊤θ)2, 其中θ是普通最小二乘估计量.
所以, σ2的最大似然估计值σ2为n1∑i=1n(yi−φ(xi)⊤θ)2 .
风险分解#
命题: 用R∗表示风险函数R(θ)=Ey[n1∥y−Φθ∥22]在Rd上的最小值, 则对于任意θ∈Rd, 有R∗=σ2, 且
R(θ)−R∗=∥θ−θ∗∥Σ2其中Σ:=n1Φ⊤Φ是输入协方差矩阵, ∥θ∥Σ2:=θ⊤Σθ. 如果θ是一个随机变量(例如作为θ∗的估计量), 那么
E[R(θ)]−R∗=偏差∥E[θ]−θ∗∥Σ2+方差E[∥θ−E[θ]∥Σ2]
证明: 已知y=Φθ∗+ε, 且E[ε]=0, E[∥ε∥22]=nσ2, 则
R(θ)=Ey[n1∥y−Φθ∥22]=Eε[n1∥Φθ∗+ε−Φθ∥22]=n1Ey[∥Φ(θ∗−θ)∥22+∥ε∥22+2[Φ(θ∗−θ)]⊤ε]=σ2+n1(θ−θ∗)⊤Φ⊤Φ(θ−θ∗)由于Σ=n1Φ⊤Φ可逆, 这表明θ∗是R(θ)唯一的全局最小值点, 并且最小值R∗等于σ2, 这就证明了第一个结论.
现在, 如果θ是随机的, 我们进行常见的偏差/方差分解:
E[R(θ)]−R∗=E[∥θ−E[θ]+E[θ]−θ∗∥Σ2]=E[∥θ−E[θ]∥Σ2]+2E[(θ−E[θ])⊤Σ(E[θ]−θ∗)]+E[∥E[θ]−θ∗∥Σ2]=E[∥θ−E[θ]∥Σ2]+0+∥E[θ]−θ∗∥Σ2(注:这也是E[∥z−a∥M2]=∥Ez−a∥M2+E[∥z−E[z]∥M2]在a=θ∗, M=Σ以及z=θ时的一个简单应用. )
估计量性质#
普通最小二乘θ具有以下性质:
(1)它是无偏的, 即E[θ]=θ∗;
(2)它的方差为Var(θ)=E[(θ−θ∗)(θ−θ∗)⊤]=nσ2Σ−1;Σ−1通常被称为精度矩阵.
证明: (1) 由于yi=φ(xi)⊤θ∗+εi, 则E[y]=Φθ∗, 从而
E[θ]=(Φ⊤Φ)−1Φ⊤Φθ∗=θ∗;(2) 因为θ=n1Σ−1Φ⊤y, 则θ−θ∗=(Φ⊤Φ)−1Φ⊤(Φθ∗+ε)−θ∗=(Φ⊤Φ)−1Φ⊤ε.
利用E[εε⊤]=σ2I, 我们有
var(θ)=E[(Φ⊤Φ)−1Φ⊤εε⊤Φ(Φ⊤Φ)−1]=σ2(Φ⊤Φ)−1(Φ⊤Φ)(Φ⊤Φ)−1=σ2(Φ⊤Φ)−1=nσ2Σ−1.超额风险#
命题: 普通最小二乘估计量的超额风险等于
E[R(θ)]−R∗=nσ2d
证明: 利用OLS风险分解结论和E[θ]=θ∗, 我们有
E[R(θ)]−R∗=E[∥θ−θ∗∥Σ2]由于期望和迹都是线性算子且运算顺序可交换(E[tr(X)]=tr(E[X])) Σ在固定设计下是固定的可提出到期望外, 最终得到tr(ΣE[(θ−θ∗)(θ−θ∗)⊤])
var(θ)=E[(θ−E[θ])(θ−E[θ])⊤], 又因为E[θ]=θ∗, 所以
E[(θ−θ∗)(θ−θ∗)⊤]=var(θ).
从而
E[∥θ−θ∗∥Σ2]=E[(θ−θ∗)⊤Σ(θ−θ∗)]=E[tr((θ−θ∗)⊤Σ(θ−θ∗))]=E[tr(Σ(θ−θ∗)(θ−θ∗)⊤)]=E[R(θ)]−R∗=tr[var(θ)Σ].因此 E[R(θ)]−R∗=tr[var(θ)Σ]=nσ2tr(I)=nσ2d.
另一证明: 利用θ−θ∗=(Φ⊤Φ)−1Φ⊤ε这一恒等式, 可得
E[R(θ)]−R∗=E[∥(Φ⊤Φ)−1Φ⊤ε∥Σ2]=n1E[ε⊤Φ(Φ⊤Φ)−1Φ⊤Φ(Φ⊤Φ)−1Φ⊤ε]=n1E[ε⊤Φ(Φ⊤Φ)−1Φ⊤ε]=n1E[ε⊤Pε]=n1E[tr(Pεε⊤)]=nσ2tr(P)=nσ2d其中我们用到了P=Φ(Φ⊤Φ)−1Φ⊤是到im(Φ)(Φ的值域)的正交投影矩阵, 且其维度为d .
命题: (1-2) E[R^(θ)]=E[R(θ)]=nn−dσ2
(3) n>d时, σ2的无偏估计量σ^2=n−d∥y−Φθ∥22
证明: 已知经验风险 R^(θ)=n1∥y−Φθ∥22 和固定设计风险 R(θ)=Ey[n1∥y−Φθ∥22] 其中y=Φθ∗+ε, E[ε]=0, E[εε⊤]=σ2I.
(1) 计算R^(θ)
将y=Φθ∗+ε和θ=(Φ⊤Φ)−1Φ⊤y代入R^(θ)可得:
R^(θ)=n1∥(Φθ∗+ε)−Φ(Φ⊤Φ)−1Φ⊤(Φθ∗+ε)∥22=n1∥(I−Φ(Φ⊤Φ)−1Φ⊤)ε+(I−Φ(Φ⊤Φ)−1Φ⊤)Φθ∗∥22因为(I−Φ(Φ⊤Φ)−1Φ⊤)Φ=0, 所以 R^(θ)=n1∥(I−Φ(Φ⊤Φ)−1Φ⊤)ε∥22.
(2)计算E[R^(θ)]
E[R^(θ)]=n1E[ε⊤(I−Φ(Φ⊤Φ)−1Φ⊤)⊤(I−Φ(Φ⊤Φ)−1Φ⊤)ε]=n1E[ε⊤(I−Φ(Φ⊤Φ)−1Φ⊤)ε]设P=Φ(Φ⊤Φ)−1Φ⊤, 它是到im(Φ)的正交投影矩阵, I−P也是正交投影矩阵, 且tr(P)=d, tr(I)=n, 则tr(I−P)=n−d.
E[R^(θ)]=n1E[ε⊤(I−P)ε]=n1E[tr((I−P)εε⊤)]=n1tr((I−P)E[εε⊤])=n1tr((I−P)σ2I)=nσ2tr(I−P)=nn−dσ2又因为在固定设计场景下, E[R^(θ)]=E[R(θ)](期望针对噪声ε, 经验风险和设计风险期望等价 ), 所以E[R^(θ)]=E[R(θ)]=nn−dσ2.
(3) 当n>d时, 设σ^2=n−d∥y−Φθ∥22, 对其求期望:
E[σ^2]=n−d1E[∥y−Φθ∥22]=n−d1×n×E[R^(θ)]=n−d1×n×nn−dσ2=σ2因为E[σ^2]=σ2, 所以n−d∥y−Φθ∥22是噪声方差σ2的无偏估计量.
OLS随机设计分析#
随机设计:输入和输出都是随机的. 这是监督机器学习的经典场景, 目标是对未见过的数据进行泛化.
我们考虑x和y都被视为随机变量, 并且每一对(xi,yi)被假定是相互独立且同分布的, 其分布为dp(x,y). 我们的目标是证明, 对于固定设计场景得到的超额风险上界, 即σ2d/n, 在随机设计场景下仍然有效. 我们对联合分布dp(x,y)做出以下假设, 这些假设是从固定设计场景转换到随机设计场景的:
存在一个向量θ∗∈Rd, 使得输入和输出之间的关系为y=φ(x)⊤θ∗+ε.
噪声ε∈R与x相互独立, 且E[ε]=0, 方差E[ε2]=σ2.
基于上述假设, E(y∣x)=φ(x)⊤θ∗. 因此, 我们进行经验风险最小化, 且我们的函数类中包含贝叶斯预测器, 这种情况通常被称为模型设定正确的场景. 风险也有一个简单的表达式:
超额风险#
命题: 在上述线性模型下, 对于任意θ∈Rd, 超额风险等于:
R(θ)−R∗=∥θ−θ∗∥Σ2其中Σ:=E[φ(x)φ(x)⊤]是(非中心化的)协方差矩阵, R∗=σ2 .
证明: 我们有:
R(θ)=E[(y−θ⊤φ(x))2]=E[(φ(x)⊤θ∗+ε−θ⊤φ(x))2]=E[(φ(x)⊤θ∗−θ⊤φ(x))2]+E[ε2]=(θ−θ∗)⊤Σ(θ−θ∗)+σ2由此得到所需结果.
注意, 与固定设计场景的唯一区别是Σ被Σ取代. 我们现在可以表示普通最小二乘估计量的风险.
性能下界部分:固定设计场景下得到的性能下界与OLS的上界匹配, 这体现了该理论的一致性和完整性. 在一般非最小二乘场景中证明类似结果更难, 说明最小二乘模型在理论分析上有一定优势, 也为后续研究其他模型提供了对比基础.
随机设计分析部分:随机设计场景更贴近实际应用中数据的产生情况. 通过设定假设条件, 推导出随机设计最小二乘回归的超额风险公式. 与固定设计场景的对比, 突出了不同场景下模型分析的差异和联系. 这部分内容对于理解在随机数据情况下最小二乘回归的性能和风险评估非常重要, 也为进一步研究更复杂的随机模型奠定了基础.
期望超额风险#
命题: 在上述线性模型下, 假设Σ可逆, 普通最小二乘(OLS)估计量的期望超额风险等于
nσ2E[tr(ΣΣ−1)]
证明: 由于OLS估计量为θ=n1Σ−1Φ⊤y=n1Σ−1Φ⊤(Φθ∗+ε)=θ∗+n1Σ−1Φ⊤ε, 我们有:
E[R(θ)]−R∗=E[(n1Σ−1Φ⊤ε)⊤Σ(n1Σ−1Φ⊤ε)]=E[tr(Σ(n1Σ−1Φ⊤ε)(n1Σ−1Φ⊤ε)⊤)]=n21E[tr(ΣΣ−1Φ⊤εε⊤ΦΣ−1)]=n21E[tr(ΣΣ−1Φ⊤E[εε⊤]ΦΣ−1)]=E[n2σ2tr(ΣΣ−1Φ⊤ΦΣ−1)]=E[nσ2tr(ΣΣ−1)]因此, 要计算OLS估计量的期望风险, 我们需要计算E[tr(ΣΣ−1)]. 这里的一个难点是Σ可能不可逆. 在一些简单假设下(例如, φ(x)在Rd上有密度), 只要n>d, Σ几乎肯定是可逆的, 然而其最小特征值可能非常小. 因此, 需要额外的假设来对其进行控制.
岭回归#
高维空间中的最小二乘法#
当d/n趋近于1时, 我们本质上是在记忆观测值yi(也就是说, 例如当d=n且Ψ是一个可逆的方阵时, θ=Φ−1y会得到y=Φθ, 即普通最小二乘法会得到完美拟合, 但这对于未见数据的泛化通常是不利的).
此外, 当d>n时, Φ⊤Φ不可逆, 正规方程会有一个线性子空间的解. 这些高维(d很大)情况下普通最小二乘法的表现往往不尽如人意 .
岭最小二乘回归#
对于正则化参数λ>0, 我们将岭最小二乘估计量θλ定义为以下式子的极小值点:
θ∈Rdminn1∥y−Φθ∥22+λ∥θ∥22岭回归估计量可以用闭式解的形式得到.
命题: 回顾Σ=n1Φ⊤Φ∈Rd×d. 则有
\widehat{\theta}_{\lambda}=\frac{1}{n}(\widehat{\Sigma}+\lambda I)^{-1}\Phi^{\top}y
证明: 与命题3.1的证明类似, 我们可以计算目标函数的梯度, 其等于n2(Φ⊤Φθ−Φ⊤y)+2λθ. 令梯度为0, 即可得到该估计量.
与普通最小二乘估计量一样, 我们可以在线性模型和固定设计假设下分析这个估计量的统计性质. 关于随机设计以及可能的无限维特征的分析, 见第7章.
命题: 在线性模型假设下(并且对于固定设计场景), 岭最小二乘估计量θλ=n1Σ−1Φ⊤y具有如下超额风险:
E[R(θλ)]−R∗=λ2θ∗⊤(Σ+λI)−2Σθ∗+nσ2tr[Σ2(Σ+λI)−2]
证明: 我们使用命题3.3中的风险分解, 将其分为偏差项B和方差项V . 因为E[θλ]=n1(Σ+λI)−1Φ⊤Φθ∗=(Σ+λI)−1Σθ∗=θ∗−λ(Σ+λI)−1θ∗, 由此可得
B=∥E[θλ]−θ∗∥Σ2=λ2θ∗⊤(Σ+λI)−2Σθ∗对于方差项, 利用E[εε⊤]=σ2I这一事实, 我们有
V=E[∥θλ−E[θλ]∥Σ2]=E[n1(Σ+λI)−1Φ⊤εΣ2]=E[n21tr(ε⊤Φ(Σ+λI)−1Σ(Σ+λI)−1Φ⊤ε)]=E[n21tr(Φ⊤εε⊤Φ(Σ+λI)−1Σ(Σ+λI)−1)]=nσ2tr(Σ(Σ+λI)−1Σ(Σ+λI)−1)将偏差项和方差项相加, 即可得到该命题结论.
估计量的期望风险#
在随机设计场景中, 假设Σ可逆, 岭回归估计量的期望风险为
E[R(θλ)−R∗]=λ2E[θ∗⊤(Σ+λI)−1Σ(Σ+λI)−1θ∗]+nσ2tr[(Σ+λI)−2ΣΣ]证明:
已知线性模型y=Φθ∗+ε, 其中E[ε]=0, E[εε⊤]=σ2I
岭回归估计量θλ=(n1Φ⊤Φ+λI)−1n1Φ⊤y
风险函数R(θ)=Ey[n1∥y−Φθ∥22]
超额风险R(θ)−R∗=∥θ−θ∗∥Σ2, 这里Σ=E[φ(x)φ(x)⊤], R∗=σ2.
计算θλ−θ∗
- 将y=Φθ∗+ε代入岭回归估计量θλ可得:
θλ=(n1Φ⊤Φ+λI)−1n1Φ⊤(Φθ∗+ε)=(n1Φ⊤Φ+λI)−1n1Φ⊤Φθ∗+(n1Φ⊤Φ+λI)−1n1Φ⊤ε.
令Σ=n1Φ⊤Φ, 则θλ=(Σ+λI)−1Σθ∗+(Σ+λI)−1n1Φ⊤ε.
所以θλ−θ∗=(Σ+λI)−1Σθ∗+(Σ+λI)−1n1Φ⊤ε−θ∗=−λ(Σ+λI)−1θ∗+(Σ+λI)−1n1Φ⊤ε.
计算E[R(θλ)−R∗]
根据超额风险公式R(θλ)−R∗=∥θλ−θ∗∥Σ2=(θλ−θ∗)⊤Σ(θλ−θ∗), 对其求期望:
E[R(θλ)−R∗]=E[(−λ(Σ+λI)−1θ∗+(Σ+λI)−1n1Φ⊤ε)⊤Σ(−λ(Σ+λI)−1θ∗+(Σ+λI)−1n1Φ⊤ε)].
E[R(θλ)−R∗]=E[λ2θ∗⊤(Σ+λI)−1Σ(Σ+λI)−1θ∗−n2λθ∗⊤(Σ+λI)−1Σ(Σ+λI)−1Φ⊤ε+n21ε⊤Φ(Σ+λI)−1Σ(Σ+λI)−1Φ⊤ε].
因为E[ε]=0, 所以E[−n2λθ∗⊤(Σ+λI)−1Σ(Σ+λI)−1Φ⊤ε]=0.
对于E[n21ε⊤Φ(Σ+λI)−1Σ(Σ+λI)−1Φ⊤ε]:
根据E[εε⊤]=σ2I, 则E[n21ε⊤Φ(Σ+λI)−1Σ(Σ+λI)−1Φ⊤ε]=n2σ2E[tr(Φ⊤Φ(Σ+λI)−1Σ(Σ+λI)−1)].
又因为Σ=n1Φ⊤Φ, 所以n2σ2E[tr(Φ⊤Φ(Σ+λI)−1Σ(Σ+λI)−1)]=nσ2E[tr((Σ+λI)−2ΣΣ)].
综上可得E[R(θλ)−R∗]=λ2E[θ∗⊤(Σ+λI)−1Σ(Σ+λI)−1θ∗]+nσ2tr[(Σ+λI)−2ΣΣ].
正则化参数的选择#
命题: 当选择λ∗=∥θ∗∥2nσtr(Σ)时, 我们有
E[R(θλ∗)]−R∗≤nσtr(Σ)∥θ∗∥2证明: 我们利用(Σ+λI)−2λΣ的特征值小于21.
对于Σ的所有特征值μ, (μ+λ)−2μλ≤1/2⇔(μ+λ)2≥2λμ
B=λ2θ∗⊤(Σ+λI)−2Σθ∗=λθ∗⊤(Σ+λI)−2λΣθ∗≤2λ∥θ∗∥22类似地, 我们有
V=nσ2tr[Σ2(Σ+λI)−2]=nσ2tr[ΣλΣ(Σ+λI)−2]≤2λnσ2trΣ.将λ∗(其选择是为了最小化B+V的上界)代入即可得到结果.
我们可以得出以下几点结论:
实验部分:通过多项式回归实验研究正则化参数λ对偏差和方差的影响, 能直观呈现其单调性和最优值, 这对于理解岭回归性能很重要. 比如在实际应用中, 我们可以根据实验结果快速找到合适的λ范围, 提升模型效果.
λ选择部分:给出了一种理论上的最优λ选择方式, 能帮助我们在岭回归中获得比OLS更好的风险界. 不过在实际中, σ、θ∗等参数可能未知, 需要通过估计等方法来确定λ∗, 这增加了应用的复杂性.
证明部分:利用特征值的性质推导偏差和方差的界, 从而得出命题结论. 这种理论推导为我们理解岭回归的风险性质提供了坚实基础, 也为后续改进和拓展模型提供了方向.
练习: 计算通过对θ⊤Λθ进行正则化得到的估计量的期望风险, 其中Λ∈Rd×d是一个正定矩阵.
证明: 定义相关变量和目标函数
- 给定线性模型y=Φθ∗+ε, 其中E[ε]=0, E[εε⊤]=σ2I. 通过对θ⊤Λθ进行正则化, 目标函数为J(θ)=n1∥y−Φθ∥22+λθ⊤Λθ, 我们需要找到使J(θ)最小的θ, 记为θλ.
- 计算θλ
- 对J(θ)求梯度:
- ∇θJ(θ)=n2Φ⊤(Φθ−y)+2λΛθ.
- 令∇θJ(θ)=0, 则n2Φ⊤(Φθ−y)+2λΛθ=0.
- 展开可得n2Φ⊤Φθ−n2Φ⊤y+2λΛθ=0.
- 进一步整理为(n1Φ⊤Φ+λΛ)θ=n1Φ⊤y.
- 假设(n1Φ⊤Φ+λΛ)可逆, 则θλ=(n1Φ⊤Φ+λΛ)−1n1Φ⊤y.
- 计算期望风险E[R(θλ)]
- 已知风险函数R(θ)=Ey[n1∥y−Φθ∥22], 将y=Φθ∗+ε代入可得:
- R(θ)=Eε[n1∥Φθ∗+ε−Φθ∥22]=Eε[n1∥Φ(θ∗−θ)+ε∥22].
- 根据向量模的平方展开∥a+b∥22=∥a∥22+∥b∥22+2a⊤b, 则R(θ)=n1Eε[∥Φ(θ∗−θ)∥22+∥ε∥22+2(Φ(θ∗−θ))⊤ε].
- 因为Eε[ε]=0, 所以R(θ)=n1∥Φ(θ∗−θ)∥22+n1Eε[∥ε∥22], 又Eε[∥ε∥22]=nσ2, 则R(θ)=n1∥Φ(θ∗−θ)∥22+σ2.
- 计算E[R(θλ)]:
- E[R(θλ)]=E[n1∥Φ(θ∗−θλ)∥22+σ2]=σ2+E[n1∥Φ(θ∗−θλ)∥22].
- 把θλ=(n1Φ⊤Φ+λΛ)−1n1Φ⊤y和y=Φθ∗+ε代入θ∗−θλ:
- θ∗−θλ=θ∗−(n1Φ⊤Φ+λΛ)−1n1Φ⊤(Φθ∗+ε).
- 进一步化简θ∗−θλ=(I−(n1Φ⊤Φ+λΛ)−1n1Φ⊤Φ)θ∗−(n1Φ⊤Φ+λΛ)−1n1Φ⊤ε.
- 计算E[n1∥Φ(θ∗−θλ)∥22]:
- E[n1∥Φ(θ∗−θλ)∥22]=E[n1(θ∗−θλ)⊤Φ⊤Φ(θ∗−θλ)].
- 分别计算各项的期望, 利用E[ε]=0和E[εε⊤]=σ2I进行化简.
- 最终可得E[R(θλ)]=σ2+θ∗⊤(n1Φ⊤Φ+λΛ)−1n1Φ⊤Φ(n1Φ⊤Φ+λΛ)−1θ∗+nσ2tr[Φ⊤Φ(n1Φ⊤Φ+λΛ)−2].
为了在固定设计场景中给出一个下界, 我们将仅考虑高斯噪声, 即ε服从联合高斯分布, 均值为0, 协方差矩阵为σ2I(添加这一额外假设只会使下界稍小一点). 模型中唯一的不确定性在于θ∗的取值. 为了明确体现对θ∗的依赖, 用Rθ∗(θ)表示超额风险
Rθ∗(θ)=∥θ−θ∗∥Σ2我们的目标是求以下式子的下界
θ∗∈RdsupEε∼N(0,σ2I)Rθ∗(A(Φθ∗+ε))其中上确界是对所有从Rn到Rd的函数A取的(这些函数可以依赖于观测到的确定性量, 比如Φ). 实际上, 算法将y=Φθ∗+ε∈Rn作为输入, 并输出一个Rd中的参数向量.
在学习算法的贝叶斯分析中, 通过关于θ∗的某种概率的期望来给出上述上确界的下界, 在贝叶斯统计学中, 这种概率分布被称为先验分布. 也就是说, 对于任何算法/估计量A, 我们有
θ∗∈RdsupEε∼N(0,σ2I)Rθ∗(A(Φθ∗+ε))≥Eθ∗∼N(0,λnσ2I)Eε∼N(0,σ2I)Rθ∗(A(Φθ∗+ε))在这里, 我们选择均值为0、协方差矩阵为λnσ2I的正态分布作为先验分布, 因为这将使得计算可以得到闭式解.
利用超额风险的表达式(并忽略加性常数σ2=R∗ ), 我们由此得到下界
Eθ∗∼N(0,λnσ2I)Eε∼N(0,σ2I)∥A(Φθ∗+ε)−θ∗∥Σ2我们需要针对A最小化这个下界. 通过使θ∗成为随机变量, 我们现在得到了(θ∗,ε)的联合高斯分布. (θ∗,y)=(θ∗,Φθ∗+ε)的联合分布也是均值为0的高斯分布, 协方差矩阵为
λnσ2Iλnσ2Φλnσ2Φ⊤λnσ2ΦΦ⊤+σ2I=λnσ2IΦΦ⊤ΦΦ⊤+λnI这将通过以y为条件来完成, 即写成
Eθ∗∼N(0,λnσ2I)Eε∼N(0,σ2I)∥A(Φθ∗+ε)−θ∗∥Σ2=E(θ∗,y)∥A(y)−θ∗∥Σ2=∫Rn(∫Rd∥A(y)−θ∗∥Σ2dp(θ∗∣y))dp(y)因此, 对于每个y, 最优的A(y)必须使∫Rd∥A(y)−θ∗∥Σ2dp(θ∗∣y)最小化, 而这恰好是给定y时θ∗的后验均值.
当我们计算回归的贝叶斯预测器时, 用于最小化期望平方偏差(即期望)的向量正是根据分布dp(θ∗∣y)得到的.
由于(θ∗,y)的联合分布是具有已知参数的高斯分布, 我们利用这样一个性质:对于高斯变量, 给定y的后验均值等于给定y的后验众数, 也就是说, 它可以通过对关于θ∗的对数似然logp(θ∗,y)求最大值得到. 忽略常数项, 并利用ε和θ∗的独立性, 这个对数似然为
−2σ21∥ε∥2−2σ2λn∥θ∗∥22=−2σ21∥y−Φθ∗∥2−2σ2λn∥θ∗∥22这恰好(相差一个符号和一个常数)是岭回归的代价函数. 因此, 我们有: A∗(y)=(Φ⊤Φ+λnI)−1Φ⊤y, 这正是岭回归估计量θλ. 然后, 我们可以计算相应的最优风险, 得到:
⩾=======Ainfθ∗∈RdsupEε∼N(0,σ2I)Rθ∗(A(Φθ∗+ε))−R∗AinfEθ∗∼N(0,λnσ2I)Eε∼N(0,σ2I)Rθ∗(A(Φθ∗+ε))−R∗(使用公式(3.6))Eθ∗∼N(0,λnσ2I)Eε∼N(0,σ2I)Rθ∗(A∗(Φθ∗+ε))−R∗(使用上述推理)Eθ∗∼N(0,λnσ2I)Eε∼N(0,σ2I)∥A∗(Φθ∗+ε)−θ∗∥Σ2(使用风险的表达式)Eθ∗∼N(0,λnσ2I)Eε∼N(0,σ2I)∥(Φ⊤Φ+λnI)−1Φ⊤(Φθ∗+ε)−θ∗∥Σ2(使用闭式表达式)Eθ∗∼N(0,λnσ2I)Eε∼N(0,σ2I)∥(Φ⊤Φ+λnI)−1Φ⊤ε−λn(Φ⊤Φ+λnI)−1θ∗∥Σ2Eθ∗∼N(0,λnσ2I)∥−λn(Φ⊤Φ+λnI)−1θ∗∥Σ2+Eε∼N(0,σ2I)∥(Φ⊤Φ+λnI)−1Φ⊤ε∥Σ2(由于独立性)λnσ2(λn)2n21tr[(Σ+λI)−2Σ]+nσ2tr[(Σ+λI)−2Σ2]nσ2tr[(Σ+λI)−1Σ]当λ趋于0时, 这个风险趋于nσ2d. 这表明
Ainfθ∗∈RdsupEε∼N(0,σ2I)Rθ∗(A(Φθ∗+ε))⩾nσ2d