CiMorns
9978 words
50 minutes
「机器学习」经验风险最小化
T1T2T2T2T2T2
风险的凸化背景解决方法风险函数经验风险最小化问题
支持向量机(SVM)的原理数据可分距离计算优化问题转化一般数据
引入松弛变量
构建目标函数
等价变换
拉格朗日对偶与支持向量
条件Φ\Phi风险与分类校准
条件Φ\Phi风险
风险与F风险之间的关系风险最小化分解近似误差估计误差
MacDiarmid不等式的应用
二次函数
有限数量的模型
拉德马赫复杂度对称化利普希茨连续损失函数
收缩原理
球约束线性预测线性预测从约束估计到正则化估计
正则化目标的快速收敛速率

风险的凸化#

背景#

在二元分类问题中, 为简化讨论, 聚焦于输出y{1,1}y \in \{-1, 1\}的情况, 并采用0 - 1损失函数. 尽管如此, 其中多数概念能推广至更一般的结构化预测场景.

我们的目标是估计一个二元值函数. 常规做法是在二元值函数的假设空间(等同于X\mathcal{X}的子集空间)上最小化经验风险. 但此方法存在弊端:

一方面, 会引发组合问题, 计算过程极为复杂;

另一方面, 难以对这类假设空间进行模型容量控制, 即正则化操作存在困难.

解决方法#

摒弃直接学习取值为{1,1}\{-1, 1\}的二元函数ff, 转而学习一个实值函数g:XRg: \mathcal{X} \to \mathbb{R}, 通过f(x)=sign(g(x))f(x) = \text{sign}(g(x))来确定最终的二元分类结果. 其中sign(a)\text{sign}(a)的定义为:

a0a \geq 0时, sign(a)=1\text{sign}(a)= 1;当a<0a < 0时, sign(a)=1\text{sign}(a)= -1 . 特别地, 当a=0a = 0时, sign(a)\text{sign}(a)也可选1-1, 这对应了在面对高度模糊的观测数据时, 随机从两个标签中选择一个的情况, 此时错误概率为50%.

风险函数#

函数f=signgf = \text{sign} \circ g的风险记为R(g)\mathcal{R}(g) , 从本质上来说, 它表示分类错误的概率. 具体可转化为R(g)=P(sign(g(x))y)=E(1sign(g(x))y)=E(1yg(x)<0)=EΦ01(yg(x))\mathcal{R}(g) = \mathbb{P}(\text{sign}(g(x)) \neq y) = \mathbb{E}(1_{\text{sign}(g(x)) \neq y}) = \mathbb{E}(1_{yg(x) < 0}) = \mathbb{E}\Phi_{0 - 1}(yg(x)) . 这里的Φ01:RR\Phi_{0 - 1}: \mathbb{R} \to \mathbb{R}, 且Φ01(u)=1u<0\Phi_{0 - 1}(u) = 1_{u < 0}, 被称作“基于间隔”的0 - 1损失函数, 简称0 - 1损失函数. 需要留意的是, 此处的0 - 1损失函数定义在R\mathbb{R}上.

经验风险最小化问题#

在实际应用中, 为实现经验风险最小化, 需要针对g:XRg: \mathcal{X} \to \mathbb{R}最小化相应的经验风险1ni=1nΦ01(yig(xi))\frac{1}{n}\sum_{i = 1}^{n}\Phi_{0 - 1}(y_ig(x_i)). 然而, Φ01\Phi_{0 - 1}函数具有不连续性, 并非凸函数, 这使得优化过程面临较大困难.

二次损失: Φ(u)=(u1)2\Phi(u) = (u - 1)^2 . 因为y2=1y^2 = 1, 所以

Φ(yg(x))=(yg(x))2=(g(x)y)2.\Phi(yg(x))=(y - g(x))^2=(g(x) - y)^2.

这样就回到了最小二乘法, 并且我们直接忽略了标签必须属于{1,1}\{-1, 1\}这一事实, 通过取g(x)g(x)的符号来进行预测.

需要注意的是, 当yΦ(x)y\Phi(x)为正值时, 会出现过度惩罚的情况, 而下面介绍的其他损失函数(它们是非递增的)则不会出现这种情况.

逻辑损失: Φ(u)=log(1+eu)\Phi(u)=\log(1 + e^{-u}) , 由此可得

Φ(yg(x))=log(1+eyg(x))=log(11+eyg(x))=log(σ(yg(x)))\Phi(yg(x))=\log(1 + e^{-yg(x)})=-\log\left(\frac{1}{1 + e^{-yg(x)}}\right)=-\log(\sigma(yg(x)))

其中, σ(v)=11+ev\sigma(v)=\frac{1}{1 + e^{-v}}是sigmoid函数. 注意这里与最大似然估计的联系, 我们通过P(y=1x)=σ(f(x))\mathbb{P}(y = 1|x)=\sigma(f(x))P(y=1x)=σ(f(x))=1σ(f(x))\mathbb{P}(y = -1|x)=\sigma(-f(x)) = 1 - \sigma(f(x)) 来定义模型.

此时, 风险就是负的条件对数似然E[logp(yx)]\mathbb{E}[-\log p(y|x)] . 它也常被称为交叉熵损失.

我们不最小化经典风险R(g)\mathcal{R}(g) 或其经验版本, 而是最小化Φ\Phi风险(及其经验版本), 其定义如下:

RΦ(g)=E[Φ(yg(x))]\mathcal{R}_{\Phi}(g)=\mathbb{E}[\Phi(yg(x))]

在这种情况下, 函数gg有时被称为分数函数 或评分函数.

支持向量机(SVM)的原理#

支持向量机常被用于分类任务. 这里考虑的是数据可分的情况, 即存在一个仿射超平面(在二维空间中是直线, 三维空间中是平面, 更高维就是超平面)能把不同类别的数据分开. 数据点用(xi,yi)(x_{i}, y_{i})表示, xix_{i}dd维的特征向量, yiy_{i}是类别标签, 取值为1-1或者11 , 代表两个不同的类别.

数据可分#

如果存在向量wRdw \in \mathbb{R}^{d}(超平面的法向量)和实数bRb \in \mathbb{R} , 使得对于所有的ii(从11nn) , 都有yi(wxi+b)>0y_{i}(w^{\top}x_{i} + b) > 0 , 那就说明数据是可分的. 这里wxi+b=0w^{\top}x_{i} + b = 0就是超平面的方程, yi(wxi+b)>0y_{i}(w^{\top}x_{i} + b) > 0表示正类(yi=1y_{i}=1)的数据点在超平面一侧, 负类(yi=1y_{i} = -1)的数据点在超平面另一侧.

距离计算#

根据点到超平面的距离公式, 点xix_{i}到超平面{xRd,wx+b=0}\{x \in \mathbb{R}^{d}, w^{\top}x + b = 0\}的距离是 wxi+bw2.\frac{|w^{\top}x_{i} + b|}{\|w\|_{2}}. 因为yiy_{i}的取值是±1\pm1 , 并且数据可分, 所以可以把距离写成yi(wxi+b)w2\frac{y_{i}(w^{\top}x_{i} + b)}{\|w\|_{2}} . 那么数据集中离超平面最近的点的距离就是 mini{1,,n}yi(wxi+b)w2.\min_{i \in \{1, \ldots, n\}}\frac{y_{i}(w^{\top}x_{i} + b)}{\|w\|_{2}}.

优化问题转化#

支持向量机的目标是最大化这个最小距离. 又因为对wwbb进行相同的缩放(乘以一个非零标量), 超平面是不变的, 所以可以将原问题转化为一个更方便求解的约束优化问题:

在满足对于任意i{1,,n}i \in \{1, \ldots, n\} , yi(wxi+b)1y_{i}(w^{\top}x_{i} + b) \geq 1的条件下, 最小化 12w22.\frac{1}{2}\|w\|_{2}^{2}. 这里加个12\frac{1}{2}是为了后续求导计算方便, 本质上和最小化w22\|w\|_{2}^{2}是一样的.

这种转化后的优化问题, 通过求解就能得到合适的wwbb , 从而确定最优的超平面, 也就是支持向量机的分类模型. 而那些使得yi(wxi+b)=1y_{i}(w^{\top}x_{i} + b) = 1的数据点就被称为支持向量, 它们决定了超平面的位置.

一般数据#

引入松弛变量#

当数据不能被超平面分开时, 之前可分数据情况下的约束条件 yi(wxi+b)1y_{i}(w^{\top}x_{i} + b) \geq 1 无法全部满足. 为了让模型能处理这种情况, 引入松弛变量 ξi0\xi_{i} \geq 0i=1,,ni = 1, \ldots, n), 将约束条件放宽为 yi(wxi+b)1ξiy_{i}(w^{\top}x_{i} + b) \geq 1 - \xi_{i}. 这样即使有些点不能满足原来严格的分类条件, 也可以通过给它一个合适的松弛量来纳入模型考虑.

构建目标函数#

  • 一方面, 我们仍希望超平面的法向量 ww 的范数尽量小, 也就是让 12w22\frac{1}{2}\|w\|_{2}^{2} 尽可能小, 这和可分数据时寻找“最优超平面”的思路一致, 保证超平面的稳定性和泛化能力.

  • 另一方面, 为了控制松弛的程度, 不能让松弛变量随意取值过大, 所以要对松弛变量进行约束. 这里通过最小化所有松弛变量的总和 i=1nξi\sum_{i = 1}^{n}\xi_{i} 来实现. 同时, 引入一个惩罚参数 C>0C > 0 来平衡 12w22\frac{1}{2}\|w\|_{2}^{2}i=1nξi\sum_{i = 1}^{n}\xi_{i} 这两项的重要性. CC 越大, 表示对分类错误(即松弛变量的存在)的惩罚越重.

综合这两方面, 就构建出了目标函数 12w22+Ci=1nξi,\frac{1}{2}\|w\|_{2}^{2} + C\sum_{i = 1}^{n}\xi_{i},

并且要在约束条件“对于任意 i{1,,n}i \in \{1, \ldots, n\}, 有 yi(wxi+b)1ξiy_{i}(w^{\top}x_{i} + b) \geq 1 - \xi_{i}ξi0\xi_{i} \geq 0”下, 求该目标函数关于 wRdw \in \mathbb{R}^{d}bRb \in \mathbb{R}ξRn\xi \in \mathbb{R}^{n} 的最小值, 即: minwRd,bR,ξRn12w22+Ci=1nξi\min_{w \in \mathbb{R}^{d}, b \in \mathbb{R}, \xi \in \mathbb{R}^{n}} \frac{1}{2}\|w\|_{2}^{2} + C\sum_{i = 1}^{n}\xi_{i}

等价变换#

λ=1nC\lambda = \frac{1}{nC}, 对上述问题进行进一步的等价变换. 这里利用了铰链损失函数 (1yi(wxi+b))+(1 - y_{i}(w^{\top}x_{i} + b))_{+} 的性质(其中 ()+(\cdot)_{+} 表示取正数部分, 即 z+=max{0,z}z_{+} = \max\{0, z\} ), 将问题转化为:

minwRd,bR1ni=1n(1yi(wxi+b))++λ2w22\min_{w \in \mathbb{R}^{d}, b \in \mathbb{R}} \frac{1}{n}\sum_{i = 1}^{n}(1 - y_{i}(w^{\top}x_{i} + b))_{+} + \frac{\lambda}{2}\|w\|_{2}^{2}

这个式子就是带有铰链损失的 2\ell_{2} 正则化经验风险最小化问题, 它从另一个角度描述了在数据不可分情况下, 支持向量机通过最小化经验风险(包含铰链损失部分)和正则化项(λ2w22\frac{\lambda}{2}\|w\|_{2}^{2} )来寻找合适的参数 wwbb 的过程 .

minwRd,bR,ξRn12w22+Ci=1nξi\min_{w \in \mathbb{R}^{d}, b \in \mathbb{R}, \xi \in \mathbb{R}^{n}} \frac{1}{2}\|w\|_{2}^{2} + C\sum_{i = 1}^{n}\xi_{i}(满足yi(wxi+b)1ξiy_{i}(w^{\top}x_{i} + b) \geq 1 - \xi_{i}ξi0\xi_{i} \geq 0)转化为minwRd,bR1ni=1n(1yi(wxi+b))++λ2w22\min_{w \in \mathbb{R}^{d}, b \in \mathbb{R}} \frac{1}{n}\sum_{i = 1}^{n}(1 - y_{i}(w^{\top}x_{i} + b))_{+} + \frac{\lambda}{2}\|w\|_{2}^{2} , 主要有以下步骤:

已知约束条件yi(wxi+b)1ξiy_{i}(w^{\top}x_{i} + b) \geq 1 - \xi_{i}, 移项可得ξi1yi(wxi+b)\xi_{i} \geq 1 - y_{i}(w^{\top}x_{i} + b). 又因为ξi0\xi_{i} \geq 0, 那么ξi\xi_{i}应该取max{0,1yi(wxi+b)}\max\{0, 1 - y_{i}(w^{\top}x_{i} + b)\}, 也就是(1yi(wxi+b))+(1 - y_{i}(w^{\top}x_{i} + b))_{+} .

这一步的原理是, ξi\xi_{i}要同时满足非负和对原分类条件的松弛要求, 所以它的取值就是1yi(wxi+b)1 - y_{i}(w^{\top}x_{i} + b) 为正的部分(如果为负就取00 ).

λ=1nC\lambda = \frac{1}{nC}, 即C=1nλC = \frac{1}{n\lambda} .

原目标函数12w22+Ci=1nξi\frac{1}{2}\|w\|_{2}^{2} + C\sum_{i = 1}^{n}\xi_{i}, 将ξi=(1yi(wxi+b))+\xi_{i} = (1 - y_{i}(w^{\top}x_{i} + b))_{+}C=1nλC = \frac{1}{n\lambda}代入可得:

12w22+1nλi=1n(1yi(wxi+b))+=λ2λw22+1nλi=1n(1yi(wxi+b))+=1ni=1n(1yi(wxi+b))++λ2w22\begin{align*} &\frac{1}{2}\|w\|_{2}^{2} + \frac{1}{n\lambda}\sum_{i = 1}^{n}(1 - y_{i}(w^{\top}x_{i} + b))_{+}\\ =&\frac{\lambda}{2\lambda}\|w\|_{2}^{2} + \frac{1}{n\lambda}\sum_{i = 1}^{n}(1 - y_{i}(w^{\top}x_{i} + b))_{+}\\ =&\frac{1}{n}\sum_{i = 1}^{n}(1 - y_{i}(w^{\top}x_{i} + b))_{+} + \frac{\lambda}{2}\|w\|_{2}^{2} \end{align*}

同时, 由于已经通过对ξi\xi_{i}的等价替换, 将其约束条件融入到新的表达式中, 所以优化变量从wRdw \in \mathbb{R}^{d}bRb \in \mathbb{R}ξRn\xi \in \mathbb{R}^{n}变为wRdw \in \mathbb{R}^{d}bRb \in \mathbb{R} .

这样就完成了从最初带有松弛变量的优化问题到带有铰链损失的2\ell_{2}正则化经验风险最小化问题的转化 .

拉格朗日对偶与支持向量#

考虑非负的拉格朗日乘子αi\alpha_{i}βi\beta_{i}, 其中i{1,,n}i \in \{1, \ldots, n\}, 并构建如下拉格朗日函数:

L(w,b,ξ,α,β)=12w22+Ci=1nξii=1nαi(yi(wxi+b)1+ξi)i=1nβiξi\mathcal{L}(w, b, \xi, \alpha, \beta)=\frac{1}{2}\|w\|_{2}^{2}+C\sum_{i = 1}^{n}\xi_{i}-\sum_{i = 1}^{n}\alpha_{i}(y_{i}(w^{\top}x_{i}+b)-1+\xi_{i})-\sum_{i = 1}^{n}\beta_{i}\xi_{i}

关于ξRn\xi\in\mathbb{R}^{n}求最小值, 会得到约束条件:对于任意i{1,,n}i \in \{1, \ldots, n\}, αi+βi=C\alpha_{i}+\beta_{i}=C;关于bb求最小值, 会得到约束条件i=1nyiαi=0\sum_{i = 1}^{n}y_{i}\alpha_{i}=0 . 最后, 关于ww求最小值可以得到闭式解w=i=1nαiyixiw = \sum_{i = 1}^{n}\alpha_{i}y_{i}x_{i} . 这就得到了对偶优化问题:

maxαRni=1nαi12i,j=1nαiαjyiyjxixj\max_{\alpha\in\mathbb{R}^{n}}\sum_{i = 1}^{n}\alpha_{i}-\frac{1}{2}\sum_{i, j = 1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}^{\top}x_{j}, 约束条件为i=1nyiαi=0\sum_{i = 1}^{n}y_{i}\alpha_{i}=0且对于任意i{1,,n}i \in \{1, \ldots, n\}, αi[0,C]\alpha_{i}\in[0, C]

正如我们将在第7章针对所有带有线性预测器的2\ell_{2}正则化学习问题中所展示的那样, 该优化问题仅依赖于点积xixjx_{i}^{\top}x_{j}i,j=1,,ni, j = 1, \ldots, n), 并且最优预测器可以写成输入数据点xix_{i}i=1,,ni = 1, \ldots, n)的线性组合. 此外, 对于最优的原变量和对偶变量, 线性不等式约束的“互补松弛性”条件会得出αi(yi(wxi+b)1+ξi)=0\alpha_{i}(y_{i}(w^{\top}x_{i}+b)-1+\xi_{i}) = 0以及(Cαi)ξi=0(C - \alpha_{i})\xi_{i}=0 . 这意味着只要yi(wxi+b)<1y_{i}(w^{\top}x_{i}+b)<1, 就有αi=0\alpha_{i}=0 . 因此, 许多αi\alpha_{i}都等于00, 而最优预测器只是少数几个数据点xix_{i}的线性组合, 这些数据点就被称为“支持向量” .

条件Φ\Phi风险与分类校准#

大多数凸替代损失函数都是0 - 1损失的上界, 并且通过重新缩放都能成为上界. 仅将此作为凸替代损失函数性能良好的理由是具有误导性的, 除非是贝叶斯(即最优)预测器的风险几乎为零的问题(只有在这种情况下才可能出现贝叶斯风险为零) .

如果我们记η(x)=P(y=1x)[0,1]\eta(x)=\mathbb{P}(y = 1|x)\in[0, 1], 那么我们有E[yx]=2η(x)1\mathbb{E}[y|x]=2\eta(x)-1, 则

R(g)=E[Φ01(yg(x))]=E[E[1(g(x)y)yx]]E[min(η(x),1η(x))]=R\mathcal{R}(g)=\mathbb{E}[\Phi_{0 - 1}(yg(x))]=\mathbb{E}[\mathbb{E}[1_{(g(x)y)\neq y}|x]]\geqslant\mathbb{E}[\min(\eta(x), 1 - \eta(x))]=\mathcal{R}^{*}

并且一个最优分类器是f(x)=sign(2η(x)1)f^{*}(x)=\text{sign}(2\eta(x)-1). 除了2η(x)12\eta(x)-1之外, 还有许多其他可能的函数g(x)g(x), 使得f(x)=sign(g(x))f^{*}(x)=\text{sign}(g(x))是最优的.

第一个(不太重要的)原因是当η(x)=1/2\eta(x)=1/2时, 预测的选择具有任意性. 另一个原因是g(x)g(x)只需与2η(x)12\eta(x)-1具有相同的符号, 这就导致了除2η(x)12\eta(x)-1之外的许多可能性.

为了研究使用Φ\Phi风险的影响, 我们首先来看条件风险(对于给定的xx, 就像对于0 - 1损失一样, 使Φ\Phi风险最小化的函数gg可以通过分别研究每个xx来确定) .

条件Φ\Phi风险#

g:XRg:\mathcal{X}\to\mathbb{R}, 我们将条件Φ\Phi风险定义为 E[Φ(yg(x))x]=η(x)Φ(g(x))+(1η(x))Φ(g(x))a,\mathbb{E}[\Phi(yg(x))|x]=\eta(x)\Phi(g(x))+(1 - \eta(x))\Phi(-g(x))a, 我们记为Cη(x)(g(x)),C_{\eta(x)}(g(x)), 其中

Cη(α)=ηΦ(α)+(1η)Φ(α).C_{\eta}(\alpha)=\eta\Phi(\alpha)+(1 - \eta)\Phi(-\alpha).

对于凸替代损失函数, 我们至少可以期望在总体情况下, 当所有xx相互独立时, 通过最小化条件Φ\Phi风险得到的最优g(x)g(x)能产生与贝叶斯预测器完全相同的预测(至少当该预测是唯一的时候).

换句话说, 由于预测是sign(g(x))\text{sign}(g(x)), 我们希望对于任意η[0,1]\eta\in[0, 1]

(正的最优预测) η>1/2argminαRCη(α)R+\eta>1/2\Leftrightarrow\underset{\alpha\in\mathbb{R}}{\arg\min}C_{\eta}(\alpha)\subset\mathbb{R}_{+}^{*}

(负的最优预测) η<1/2argminαRCη(α)R\eta<1/2\Leftrightarrow\underset{\alpha\in\mathbb{R}}{\arg\min}C_{\eta}(\alpha)\subset\mathbb{R}_{-}^{*}

满足这两个条件的函数Φ\Phi被称为分类校准的, 或简称为校准的. 结果表明, 当Φ\Phi是凸函数时, 有一个简单的充要条件:

命题:Φ:RR\Phi:\mathbb{R}\to\mathbb{R}为凸函数. Φ\Phi是校准的, 当且仅当Φ\Phi00点可微且Φ(0)<0\Phi'(0)<0.

证明: 由于Φ\Phi是凸函数, 对于任意η[0,1]\eta\in[0,1], CηC_{\eta}也是凸函数. 因此, 我们只需考虑在00点的左导数和右导数, 以得到关于极小值点位置的条件, 有以下两种情况(极小值点在R+\mathbb{R}^+中, 当且仅当在00点的右导数严格为负;极小值点在R\mathbb{R}^-中, 当且仅当在00点的左导数严格为正):

argminαRCη(α)R+(Cη)+(0)=ηΦ+(0)(1η)Φ(0)<0(4.6)argminαRCη(α)R(Cη)(0)=ηΦ(0)(1η)Φ+(0)>0(4.7)\begin{align*} \underset{\alpha\in\mathbb{R}}{\arg\min}C_{\eta}(\alpha)\subset\mathbb{R}^+&\Leftrightarrow (C_{\eta})_+(0)'=\eta\Phi_+'(0)-(1 - \eta)\Phi_-'(0)<0&(4.6)\\ \underset{\alpha\in\mathbb{R}}{\arg\min}C_{\eta}(\alpha)\subset\mathbb{R}^-&\Leftrightarrow (C_{\eta})_-(0)'=\eta\Phi_-'(0)-(1 - \eta)\Phi_+'(0)>0&(4.7) \end{align*}

(a) 假设Φ\Phi是校准的. 在公式(4.6)中, 令η\eta趋于1/2+1/2+, 可得(C1/2)+(0)=12[Φ+(0)Φ(0)]0(C_{1/2})_+(0)'=\frac{1}{2}[\Phi_+'(0)-\Phi_-'(0)]\leq0. 由于Φ\Phi是凸函数, 我们总有Φ+(0)Φ(0)0\Phi_+'(0)-\Phi_-'(0)\geq0. 因此, 左导数和右导数相等, 这意味着Φ\Phi00点可微. 然后Cη(0)=(2η1)Φ(0)C_{\eta}'(0)=(2\eta - 1)\Phi'(0), 我们需要Φ(0)<0\Phi'(0)<0.

(b) 假设Φ\Phi00点可微且Φ(0)<0\Phi'(0)<0, 那么Cη(0)=(2η1)Φ(0)C_{\eta}'(0)=(2\eta - 1)\Phi'(0)

风险与F风险之间的关系#

F风险:Φ - 风险

既然我们知道对于任意xXx \in \mathcal{X}, 关于g(x)g(x)最小化Cη(x)(g(x))C_{\eta(x)}(g(x)) 可通过sign(g(x))\text{sign}(g(x))得到最优预测, 我们希望确保对超额Φ - 风险进行显式控制能够进而对原始超额风险进行显式控制.

换句话说, 我们要寻找一个单调函数H:R+R+H:\mathbb{R}_{+} \to \mathbb{R}_{+}, 使得R(g)RH[RΦ(g)RΦ],\mathcal{R}(g) - \mathcal{R}^* \leq H[\mathcal{R}_{\Phi}(g) - \mathcal{R}_{\Phi}^*],其中RΦ\mathcal{R}_{\Phi}^*是可能的最小Φ - 风险. 函数HH通常被称为校准函数.

与最小二乘回归的情况不同(在最小二乘回归中, 用于测试的损失函数直接就是经验风险最小化中所使用的损失函数), 这里有两个概念:测试误差R(g)\mathcal{R}(g), 它是在对函数gg进行零阈值处理后得到的;以及量RΦ(g)\mathcal{R}_{\Phi}(g), 有时也被称为测试损失.

命题: 对于任意函数g:XRg:\mathcal{X} \to \mathbb{R}, 以及对于贝叶斯预测器gg^*R(g)R(g)=E[1g(x)g(x)<02η(x)1]\mathcal{R}(g) - \mathcal{R}(g^*) = \mathbb{E}[1_{g(x)g^*(x) < 0} \cdot |2\eta(x) - 1|]. 此外, 我们有R(g)R(g)E[2η(x)1g(x)]\mathcal{R}(g) - \mathcal{R}(g^*) \leq \mathbb{E}[|2\eta(x) - 1 - g(x)|].

证明: 我们将超额风险表示为: R(g)R(g)=E[1sign(g(x))y1sign(g(x))yx]\mathcal{R}(g) - \mathcal{R}(g^*) = \mathbb{E}[|1_{\text{sign}(g(x)) \neq y} - 1_{\text{sign}(g^*(x)) \neq y}| |x], 这是根据0 - 1损失的定义得到的.

对于任意给定的xXx \in \mathcal{X}, 我们可以考虑η(x)1/2\eta(x) - 1/2g(x)g(x)的符号的两种可能情况, 这会导致gggg^*有不同的预测结果, 即 (a) η(x)>1/2\eta(x) > 1/2g(x)<0g(x) < 0, 以及 (b) η(x)<1/2\eta(x) < 1/2g(x)>0g(x) > 0(等式情况无关紧要). 对于第一种情况, 关于yy的期望是η(x)(1η(x))=2η(x)1\eta(x) - (1 - \eta(x)) = 2\eta(x) - 1;而对于第二种情况, 我们得到12η(x)1 - 2\eta(x). 通过将这两种情况合并为条件g(x)g(x)<0g(x)g^*(x) < 0以及条件期望2η(x)1|2\eta(x) - 1|, 我们得到第一个结果.

对于第二个结果, 我们简单利用这样一个事实:如果g(x)g(x)<0g(x)g^*(x) < 0, 那么, 通过将情况分为两种(第一种是η(x)>1/2\eta(x) > 1/2g(x)<0g(x) < 0, 第二种是η(x)<1/2\eta(x) < 1/2g(x)>0g(x) > 0), 我们得到2η(x)12η(x)1g(x)|2\eta(x) - 1| \leq |2\eta(x) - 1 - g(x)|, 从而得到第二个结果.

风险最小化分解#

我们考虑一个预测函数族F\mathcal{F}, 其中的预测函数f:XYf:\mathcal{X} \to \mathcal{Y}. 经验风险最小化的目标是找到 f^argminfFR^(f)=1ni=1n(yi,f(xi))\hat{f} \in \underset{f\in\mathcal{F}}{\arg\min} \widehat{\mathcal{R}}(f) = \frac{1}{n} \sum_{i = 1}^{n} \ell(y_i, f(x_i)) .

我们可以将风险分解为如下两项:

R(f^)R={R(f^)inffFR(f)}+{inffFR(f)R}=估计误差+近似误差\begin{align*} \mathcal{R}(\hat{f}) - \mathcal{R}^* &= \left\{\mathcal{R}(\hat{f}) - \underset{f'\in\mathcal{F}}{\inf} \mathcal{R}(f')\right\} + \left\{\underset{f'\in\mathcal{F}}{\inf} \mathcal{R}(f') - \mathcal{R}^*\right\}\\ &= \text{估计误差} + \text{近似误差} \end{align*}

一个经典的例子是函数族由Rd\mathbb{R}^d的一个子集进行参数化的情况, 即F={fθ,θΘ}\mathcal{F} = \{f_{\theta}, \theta \in \Theta\}, 其中ΘRd\Theta \subset \mathbb{R}^d. 这涵盖了神经网络, 以及最简单的线性模型形式fθ(x)=θφ(x)f_{\theta}(x) = \theta^{\top} \varphi(x)(对于某个特征向量φ(x)\varphi(x) , 如第3章中所述) . 我们将使用具有利普希茨连续损失函数的线性模型作为示例, 并且通常会对2\ell_2 - 范数θ2\|\theta\|_2添加约束或惩罚项.

现在我们分别来讨论近似误差和估计误差.

近似误差#

对近似误差进行界定, 相当于对inffFR(f)R\underset{f\in\mathcal{F}}{\inf} \mathcal{R}(f) - \mathcal{R}^* 进行界定, 这需要对贝叶斯预测器(有时也称为“目标函数”)ff^* 做出假设(因此也涉及到测试分布), 以便实现非零的学习收益.

在本节中, 我们将重点关注模型族F={fθ,θΘ}\mathcal{F} = \{f_{\theta}, \theta \in \Theta\} , 其中ΘRd\Theta \subset \mathbb{R}^d(我们将在第7章考虑无穷维的情况)以及凸的利普希茨连续损失函数. 假设θ\theta_* 是在θRd\theta \in \mathbb{R}^d 范围内R(fθ)\mathcal{R}(f_{\theta}) 的极小值点(通常, 它不属于Θ\Theta ). 这意味着近似误差可分解为:

infθΘR(fθ)R=(infθΘR(fθ)infθRdR(fθ))+(infθRdR(fθ)R).\underset{\theta\in\Theta}{\inf} \mathcal{R}(f_{\theta}) - \mathcal{R}^* = \left(\underset{\theta\in\Theta}{\inf} \mathcal{R}(f_{\theta}) - \underset{\theta\in\mathbb{R}^d}{\inf} \mathcal{R}(f_{\theta})\right) + \left(\underset{\theta\in\mathbb{R}^d}{\inf} \mathcal{R}(f_{\theta}) - \mathcal{R}^*\right).
  • 第二项infθRdR(fθ)R\underset{\theta\in\mathbb{R}^d}{\inf} \mathcal{R}(f_{\theta}) - \mathcal{R}^* 是由所选的模型集fθf_{\theta} 产生的不可压缩近似误差.
  • 函数θR(fθ)infθRdR(fθ)\theta \mapsto \mathcal{R}(f_{\theta}) - \underset{\theta\in\mathbb{R}^d}{\inf} \mathcal{R}(f_{\theta})Rd\mathbb{R}^d 上的一个正值函数, 通常可以由某个范数(或其平方)Ω(θθ)\Omega(\theta - \theta_*) 给出上界. 我们可以将上面的第一项infθΘR(fθ)infθRdR(fθ)\underset{\theta\in\Theta}{\inf} \mathcal{R}(f_{\theta}) - \underset{\theta\in\mathbb{R}^d}{\inf} \mathcal{R}(f_{\theta}) 看作是θ\theta_*Θ\Theta 之间的“距离”.

例如: 如果所考虑的损失函数关于第二个变量是GG - 利普希茨连续的

R(fθ)R(fθ)=E[(y,fθ(x))(y,fθ(x))]GE[fθ(x)fθ(x)]\mathcal{R}(f_{\theta}) - \mathcal{R}(f_{\theta'}) = \mathbb{E}[\ell(y, f_{\theta}(x)) - \ell(y, f_{\theta'}(x))] \leq G\mathbb{E}[|f_{\theta}(x) - f_{\theta'}(x)|] , 因此, 近似误差的这第二部分由GG 乘以fθf_{\theta_*}F={fθ,θΘ}\mathcal{F} = \{f_{\theta}, \theta \in \Theta\} 之间的距离给出上界, 这里特定的距离d(θ,θ)=E[fθ(x)fθ(x)]d(\theta, \theta') = \mathbb{E}[|f_{\theta}(x) - f_{\theta'}(x)|] .

一个经典的例子是fθ(x)=θφ(x)f_{\theta}(x) = \theta^{\top} \varphi(x) , 且Θ={θRd,θ2D}\Theta = \{\theta \in \mathbb{R}^d, \|\theta\|_2 \leq D\} , 这会得到上界GE[φ(x)2](θ2D)+G\mathbb{E}[\|\varphi(x)\|_2](\|\theta_*\|_2 - D)_+ , 如果θ2D\|\theta_*\|_2 \leq D , 该上界等于00(模型设定恰当的情况).

练习: 针对Θ\Theta 上的1\ell_1 范数进行相同的计算.

证明: 已知损失函数关于第二个变量是GG - 利普希茨连续的, 即

R(fθ)R(fθ)=E[(y,fθ(x))(y,fθ(x))]GE[fθ(x)fθ(x)].\mathcal{R}(f_{\theta}) - \mathcal{R}(f_{\theta'}) = \mathbb{E}[\ell(y, f_{\theta}(x)) - \ell(y, f_{\theta'}(x))] \leq G\mathbb{E}[|f_{\theta}(x) - f_{\theta'}(x)|].

fθ(x)=θφ(x)f_{\theta}(x)=\theta^{\top}\varphi(x) , 在本题中我们要考虑Θ={θRd,θ1D}\Theta = \{\theta\in\mathbb{R}^d,\|\theta\|_1\leq D\} , 其中θ1=i=1dθi\|\theta\|_1=\sum_{i = 1}^{d}|\theta_i| . 设θ\theta_* 是在θRd\theta\in\mathbb{R}^d 范围内R(fθ)\mathcal{R}(f_{\theta}) 的极小值点.

计算E[fθ(x)fθ(x)]\mathbb{E}[|f_{\theta}(x)-f_{\theta'}(x)|]

  • 首先, fθ(x)fθ(x)=θφ(x)θφ(x)=(θθ)φ(x)=i=1d(θiθi)φi(x)f_{\theta}(x)-f_{\theta'}(x)=\theta^{\top}\varphi(x)-\theta'^{\top}\varphi(x)=(\theta - \theta')^{\top}\varphi(x)=\sum_{i = 1}^{d}(\theta_i-\theta_i')\varphi_i(x) .
  • 根据绝对值不等式i=1daibii=1daibi\left|\sum_{i = 1}^{d}a_ib_i\right|\leq\sum_{i = 1}^{d}|a_i||b_i| , 这里ai=θiθia_i = \theta_i-\theta_i' , bi=φi(x)b_i=\varphi_i(x) , 则fθ(x)fθ(x)=i=1d(θiθi)φi(x)i=1dθiθiφi(x)\left|f_{\theta}(x)-f_{\theta'}(x)\right|=\left|\sum_{i = 1}^{d}(\theta_i - \theta_i')\varphi_i(x)\right|\leq\sum_{i = 1}^{d}|\theta_i-\theta_i'||\varphi_i(x)| .
  • 对其求期望可得E[fθ(x)fθ(x)]E[i=1dθiθiφi(x)]=i=1dθiθiE[φi(x)]\mathbb{E}[|f_{\theta}(x)-f_{\theta'}(x)|]\leq\mathbb{E}\left[\sum_{i = 1}^{d}|\theta_i-\theta_i'||\varphi_i(x)|\right]=\sum_{i = 1}^{d}|\theta_i-\theta_i'|\mathbb{E}[|\varphi_i(x)|] .

计算近似误差上界

  • 近似误差的第二部分由GG 乘以fθf_{\theta_*}F={fθ,θΘ}\mathcal{F} = \{f_{\theta},\theta\in\Theta\} 之间的距离给出上界.
  • 我们要找θΘ\theta\in\Theta 使得E[fθ(x)fθ(x)]\mathbb{E}[|f_{\theta}(x)-f_{\theta_*}(x)|] 最小. 因为Θ={θRd,θ1D}\Theta = \{\theta\in\mathbb{R}^d,\|\theta\|_1\leq D\} , 根据1\ell_1 范数的性质, E[fθ(x)fθ(x)]i=1dθiθ,iE[φi(x)]\mathbb{E}[|f_{\theta}(x)-f_{\theta_*}(x)|]\leq\sum_{i = 1}^{d}|\theta_i-\theta_{*,i}|\mathbb{E}[|\varphi_i(x)|] .
  • θ1=i=1dθiD\|\theta\|_1=\sum_{i = 1}^{d}|\theta_i|\leq D , 我们可以得到近似误差上界为Gi=1dE[φi(x)](θ1D)+G\sum_{i = 1}^{d}\mathbb{E}[|\varphi_i(x)|](\|\theta_*\|_1 - D)_+ , 其中(a)+=max(0,a)(a)_+=\max(0,a) . 当θ1D\|\theta_*\|_1\leq D 时, 上界等于00 .

综上, 针对Θ\Theta 上的1\ell_1 范数, 近似误差的上界为

Gi=1dE[φi(x)](θ1D)+.G\sum_{i = 1}^{d}\mathbb{E}[|\varphi_i(x)|](\|\theta_*\|_1 - D)_+.

估计误差#

估计误差通常利用gargmingFR(g)g \in \underset{g\in\mathcal{F}}{\arg\min} \mathcal{R}(g)(我们模型类的期望风险的极小值点)以及f^argminfFR^(f)\hat{f} \in \underset{f\in\mathcal{F}}{\arg\min} \widehat{\mathcal{R}}(f)(经验风险的极小值点)来进行分解:

R(f^)inffFR(f)=R(f^)R(g)={R(f^)R^(f^)}+{R^(f^)R^(g)}+{R^(g)R(g)}supfF{R(f)R^(f)}+{R^(f^)R^(g)}+supfF{R^(f)R(f)}supfF{R(f)R^(f)}+0+supfF{R^(f)R(f)}(根据f^的定义)\begin{align*} \mathcal{R}(\hat{f}) - \underset{f\in\mathcal{F}}{\inf} \mathcal{R}(f) &= \mathcal{R}(\hat{f}) - \mathcal{R}(g)\\ &= \left\{\mathcal{R}(\hat{f}) - \widehat{\mathcal{R}}(\hat{f})\right\} + \left\{\widehat{\mathcal{R}}(\hat{f}) - \widehat{\mathcal{R}}(g)\right\} + \left\{\widehat{\mathcal{R}}(g) - \mathcal{R}(g)\right\}\\ &\leq \sup_{f\in\mathcal{F}} \left\{\mathcal{R}(f) - \widehat{\mathcal{R}}(f)\right\} + \left\{\widehat{\mathcal{R}}(\hat{f}) - \widehat{\mathcal{R}}(g)\right\} + \sup_{f\in\mathcal{F}} \left\{\widehat{\mathcal{R}}(f) - \mathcal{R}(f)\right\}\\ &\leq \sup_{f\in\mathcal{F}} \left\{\mathcal{R}(f) - \widehat{\mathcal{R}}(f)\right\} + 0+ \sup_{f\in\mathcal{F}} \left\{\widehat{\mathcal{R}}(f) - \mathcal{R}(f)\right\} \quad (\text{根据} \hat{f} \text{的定义}) \end{align*}

通常, 该式进一步由2supfFR^(f)R(f)2\sup_{f\in\mathcal{F}} \left|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)\right|给出上界. 可以得出以下几点结论:

  • f^\hat{f}不是R^\widehat{\mathcal{R}}的全局极小值点, 而仅仅满足R^(f^)inffFR^(f)+ε\widehat{\mathcal{R}}(\hat{f}) \leq \underset{f\in\mathcal{F}}{\inf} \widehat{\mathcal{R}}(f)+\varepsilon时, 那么优化误差ε\varepsilon必须添加到上述上界中.

  • 均匀偏差会随着F\mathcal{F}的“规模”增大而增加, 并且通常会随着样本数量nn的增加而减小.

  • 一个关键问题是, 我们需要对所有fFf \in \mathcal{F}进行统一控制:对于单个ff, 我们可以对随机变量(y,f(x))\ell(y, f(x))应用任何集中不等式, 以得到O(1/n)O(1/\sqrt{n})量级的上界;然而, 在控制多个ff值的最大偏差时, 总是存在一种小概率情况, 即这些偏差中的某一个会变得很大.

MacDiarmid不等式的应用#

麦克迪尔米德不等式:Z1,,ZnZ_1,\ldots,Z_n是相互独立的随机变量(在任意可测空间Z\mathcal{Z}中), 且f:ZnRf:\mathcal{Z}^n \to \mathbb{R}是一个“有界变差”函数, 即对于所有的ii, 以及所有的z1,,zn,ziZz_1,\ldots,z_n,z_i' \in \mathcal{Z}, 我们有:

f(z1,,zi1,zi,zi+1,,zn)f(z1,,zi1,zi,zi+1,,zn)c\left|f(z_1,\ldots,z_{i - 1},z_i,z_{i + 1},\ldots,z_n)-f(z_1,\ldots,z_{i - 1},z_i',z_{i + 1},\ldots,z_n)\right| \leq c

那么

P(f(Z1,,Zn)Ef(Z1,,Zn)t)2exp(2t2/(nc2))\mathbb{P}\left(\left|f(Z_1,\ldots,Z_n)-\mathbb{E}f(Z_1,\ldots,Z_n)\right| \geq t\right) \leq 2\exp\left(-2t^2/(nc^2)\right)

H(z1,,zn)=supfF{R(f)R^(f)}H(z_1, \ldots, z_n)=\sup_{f\in\mathcal{F}} \left\{\mathcal{R}(f) - \widehat{\mathcal{R}}(f)\right\}, 其中随机变量zi=(xi,yi)z_i=(x_i, y_i)相互独立且同分布, R^(f)=1ni=1n(yi,f(xi))\widehat{\mathcal{R}}(f)=\frac{1}{n}\sum_{i = 1}^{n}\ell(y_i, f(x_i)). 我们用\ell_{\infty}表示在数据生成分布的支撑集中, 对于所有(x,y)(x, y)以及fFf \in \mathcal{F}, 损失函数的最大绝对值 .

当将单个ziX×Yz_i \in \mathcal{X} \times \mathcal{Y}变为ziX×Yz_i' \in \mathcal{X} \times \mathcal{Y}时, HH的偏差几乎必然至多为2n\frac{2}{n}\ell_{\infty} .

因此, 应用麦克迪尔米德不等式, 在概率大于1δ1 - \delta的情况下, 我们有:

H(z1,,zn)E[H(z1,,zn)]2nlog1δH(z_1, \ldots, z_n) - \mathbb{E}[H(z_1, \ldots, z_n)] \leq \frac{\ell_{\infty}\sqrt{2}}{\sqrt{n}}\sqrt{\log\frac{1}{\delta}}

因此, 我们只需要对supfF{R(f)R^(f)}\sup_{f\in\mathcal{F}} \{\mathcal{R}(f) - \widehat{\mathcal{R}}(f)\}supfF{R^(f)R(f)}\sup_{f\in\mathcal{F}} \{\widehat{\mathcal{R}}(f) - \mathcal{R}(f)\} 的期望进行界定(通常它们会有相同的上界), 然后在此基础上加上2nlog1δ\frac{\ell_{\infty}\sqrt{2}}{\sqrt{n}}\sqrt{\log\frac{1}{\delta}} .

二次函数#

我们将展示在二次损失函数和2\ell_2球约束下的情况. 我们记得在这种情况下, (y,θφ(x))=(yθφ(x))2\ell(y, \theta^{\top}\varphi(x)) = (y - \theta^{\top}\varphi(x))^2 . 由此我们得到:

R^(f)R(f)=θ(1ni=1nφ(xi)φ(xi)E[φ(x)φ(x)])θ2θ(1ni=1nyiφ(xi)E[yφ(x)])+(1ni=1nyi2E[y2])\begin{align*} \widehat{\mathcal{R}}(f) - \mathcal{R}(f) =& \theta^{\top}\left(\frac{1}{n}\sum_{i = 1}^{n}\varphi(x_i)\varphi(x_i)^{\top} - \mathbb{E}[\varphi(x)\varphi(x)^{\top}]\right)\theta \\ &- 2\theta^{\top}\left(\frac{1}{n}\sum_{i = 1}^{n}y_i\varphi(x_i) - \mathbb{E}[y\varphi(x)]\right) + \left(\frac{1}{n}\sum_{i = 1}^{n}y_i^2 - \mathbb{E}[y^2]\right) \end{align*}

因此, 上确界可以用封闭形式给出上界:

supθ2DR(f)R^(f)D21ni=1nφ(xi)φ(xi)E[φ(x)φ(x)]op+2D1ni=1nyiφ(xi)E[yφ(x)]2+1ni=1nyi2E[y2]\begin{align*} \sup_{\|\theta\|_2\leq D}|\mathcal{R}(f) - \widehat{\mathcal{R}}(f)| \leq& D^2\left\|\frac{1}{n}\sum_{i = 1}^{n}\varphi(x_i)\varphi(x_i)^{\top} - \mathbb{E}[\varphi(x)\varphi(x)^{\top}]\right\|_{\text{op}} \\ &+ 2D\left\|\frac{1}{n}\sum_{i = 1}^{n}y_i\varphi(x_i) - \mathbb{E}[y\varphi(x)]\right\|_2 + \left|\frac{1}{n}\sum_{i = 1}^{n}y_i^2 - \mathbb{E}[y^2]\right| \end{align*}

其中Mop\|M\|_{\text{op}}是矩阵MM的算子范数, 定义为Mop=supu2=1Mu2\|M\|_{\text{op}} = \sup_{\|u\|_2 = 1}\|Mu\|_2 .

因此, 为了得到一个一致的上界, 我们只需要对这三个非一致的偏差期望进行上界界定, 它们的阶数为O(1/n)O(1/\sqrt{n}), 这样我们就能得到一个整体的一致偏差上界. 对于这种特殊情况, 得到O(1/n)O(1/\sqrt{n})的收敛速度是可能的, 但对于除二次损失之外的其他类型的损失函数, 要得到这样的收敛速度通常是不可能的.

练习: 给出上述supθ2DR(f)R^(f)\sup_{\|\theta\|_2\leq D}|\mathcal{R}(f) - \widehat{\mathcal{R}}(f)| 的显式上界, 并将其与4.5节中拉德马赫复杂度的应用进行比较. 可以使用1.2.3节中关于矩阵平均值的集中不等式.

证明: 计算supθ2DR(f)R^(f)\sup_{\|\theta\|_2\leq D}|\mathcal{R}(f) - \widehat{\mathcal{R}}(f)|的显式上界 已知

supθ2DR(f)R^(f)D21ni=1nφ(xi)φ(xi)E[φ(x)φ(x)]op+2D1ni=1nyiφ(xi)E[yφ(x)]2+1ni=1nyi2E[y2]\begin{align*} \sup_{\|\theta\|_2\leq D}|\mathcal{R}(f) - \widehat{\mathcal{R}}(f)| &\leq D^2\left\|\frac{1}{n}\sum_{i = 1}^{n}\varphi(x_i)\varphi(x_i)^{\top} - \mathbb{E}[\varphi(x)\varphi(x)^{\top}]\right\|_{\text{op}} \\ &+ 2D\left\|\frac{1}{n}\sum_{i = 1}^{n}y_i\varphi(x_i) - \mathbb{E}[y\varphi(x)]\right\|_2 + \left|\frac{1}{n}\sum_{i = 1}^{n}y_i^2 - \mathbb{E}[y^2]\right| \end{align*}

第一项: 设Mn=1ni=1nφ(xi)φ(xi)M_n=\frac{1}{n}\sum_{i = 1}^{n}\varphi(x_i)\varphi(x_i)^{\top}, M0=E[φ(x)φ(x)]M_0 = \mathbb{E}[\varphi(x)\varphi(x)^{\top}]. 根据矩阵的集中不等式, 对于独立同分布的矩阵随机变量φ(xi)φ(xi)\varphi(x_i)\varphi(x_i)^{\top}, 在一定条件下(如φ(x)\varphi(x)的各元素有界等), 存在常数C1C_1使得

P(MnM0opC1log(1/δ)n)δ\mathbb{P}\left(\left\|M_n - M_0\right\|_{\text{op}} \geq \frac{C_1\sqrt{\log(1/\delta)}}{\sqrt{n}}\right) \leq \delta

那么在概率1δ1 - \delta下, D21ni=1nφ(xi)φ(xi)E[φ(x)φ(x)]opD2C1log(1/δ)n.D^2\left\|\frac{1}{n}\sum_{i = 1}^{n}\varphi(x_i)\varphi(x_i)^{\top} - \mathbb{E}[\varphi(x)\varphi(x)^{\top}]\right\|_{\text{op}} \leq D^2\frac{C_1\sqrt{\log(1/\delta)}}{\sqrt{n}}.

第二项: 设vn=1ni=1nyiφ(xi)v_n=\frac{1}{n}\sum_{i = 1}^{n}y_i\varphi(x_i), v0=E[yφ(x)]v_0 = \mathbb{E}[y\varphi(x)]. 对于向量形式的随机变量, 利用类似的集中不等式(如针对独立同分布的向量随机变量的霍夫丁型不等式), 假设yiy_iφ(xi)\varphi(x_i)满足一定的有界条件, 存在常数C2C_2使得

P(vnv02C2log(1/δ)n)δ\mathbb{P}\left(\left\|v_n - v_0\right\|_2 \geq \frac{C_2\sqrt{\log(1/\delta)}}{\sqrt{n}}\right) \leq \delta

那么在概率1δ1 - \delta下,

2D1ni=1nyiφ(xi)E[yφ(x)]22DC2log(1/δ)n.2D\left\|\frac{1}{n}\sum_{i = 1}^{n}y_i\varphi(x_i) - \mathbb{E}[y\varphi(x)]\right\|_2 \leq 2D\frac{C_2\sqrt{\log(1/\delta)}}{\sqrt{n}}.

第三项: 设sn=1ni=1nyi2s_n=\frac{1}{n}\sum_{i = 1}^{n}y_i^2, s0=E[y2]s_0 = \mathbb{E}[y^2]. 对于标量随机变量yi2y_i^2, 根据标量的集中不等式(如霍夫丁不等式), 存在常数C3C_3使得

P(sns0C3log(1/δ)n)δ\mathbb{P}\left(\left|s_n - s_0\right| \geq \frac{C_3\sqrt{\log(1/\delta)}}{\sqrt{n}}\right) \leq \delta

那么在概率1δ1 - \delta下,

1ni=1nyi2E[y2]C3log(1/δ)n.\left|\frac{1}{n}\sum_{i = 1}^{n}y_i^2 - \mathbb{E}[y^2]\right| \leq \frac{C_3\sqrt{\log(1/\delta)}}{\sqrt{n}}.

综合以上三项, 在概率1δ1 - \delta下,

supθ2DR(f)R^(f)log(1/δ)n(D2C1+2DC2+C3).\sup_{\|\theta\|_2\leq D}|\mathcal{R}(f) - \widehat{\mathcal{R}}(f)| \leq \frac{\sqrt{\log(1/\delta)}}{\sqrt{n}}(D^2C_1 + 2DC_2+C_3).

有限数量的模型#

我们假设损失函数的取值范围在-\ell_{\infty}\ell_{\infty} 之间. 利用估计误差的上界2supfFR^(f)R(f)2\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)| , 以及并集界:

P(R(f^)inffFR(f)t)P(2supfFR^(f)R(f)t)fFP(2R^(f)R(f)t)\mathbb{P}\left(\mathcal{R}(\hat{f}) - \underset{f\in\mathcal{F}}{\inf} \mathcal{R}(f) \geq t\right) \leq \mathbb{P}\left(2\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)| \geq t\right) \leq \sum_{f\in\mathcal{F}} \mathbb{P}\left(2|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)| \geq t\right)

对于固定的fFf \in \mathcal{F} , 我们有R^(f)=1ni=1n(yi,f(yi))\widehat{\mathcal{R}}(f) = \frac{1}{n} \sum_{i = 1}^{n} \ell(y_i, f(y_i)) , 并且我们可以应用霍夫丁(Hoeffding)不等式来对每个P(2R^(f)R(f)t)\mathbb{P}\left(2|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)| \geq t\right) 进行界定, 从而得到:

P(R(f^)inffFR(f)t)fF2exp(nt2/22)=2Fexp(nt2/22)\mathbb{P}\left(\mathcal{R}(\hat{f}) - \underset{f\in\mathcal{F}}{\inf} \mathcal{R}(f) \geq t\right) \leq \sum_{f\in\mathcal{F}} 2\exp\left(-nt^2 / 2\ell_{\infty}^2\right) = 2|\mathcal{F}|\exp\left(-nt^2 / 2\ell_{\infty}^2\right)

因此, 令δ=2Fexp(nt2/22)\delta = 2|\mathcal{F}|\exp\left(-nt^2 / 2\ell_{\infty}^2\right) , 并求出对应的tt , 在概率大于1δ1 - \delta 的情况下, 我们得到:

R(f^)R(f)2nlog2Fδ=2nlog(F)+log2δ2log(F)n+2nlog2δ\mathcal{R}(\hat{f}) - \mathcal{R}(f) \leq \frac{2\ell_{\infty}}{\sqrt{n}} \sqrt{\log\frac{2|\mathcal{F}|}{\delta}} = \frac{2\ell_{\infty}}{\sqrt{n}} \sqrt{\log(|\mathcal{F}|) + \log\frac{2}{\delta}} \leq 2\ell_{\infty} \sqrt{\frac{\log(|\mathcal{F}|)}{n}} + \frac{2\ell_{\infty}}{\sqrt{n}} \sqrt{\log\frac{2}{\delta}}

习题: 从期望的角度来看, 我们可以得到(利用第2章1.2.4节中关于随机变量最大值的证明, 这是适用的, 因为有界随机变量是次高斯的):

E[R(f^)inffFR(f)]2E[supfFR^(f)R(f)]2log(F)n\mathbb{E}\left[\mathcal{R}(\hat{f}) - \underset{f\in\mathcal{F}}{\inf} \mathcal{R}(f)\right] \leq 2\mathbb{E}\left[\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)|\right] \leq \ell_{\infty} \sqrt{\frac{2\log(|\mathcal{F}|)}{n}}

证明: 已知损失函数有界, 即(y,f(x))-\ell_{\infty} \leq \ell(y, f(x)) \leq \ell_{\infty} , 且R^(f)=1ni=1n(yi,f(xi))\widehat{\mathcal{R}}(f)=\frac{1}{n}\sum_{i = 1}^{n}\ell(y_i, f(x_i)), R(f)=E[(y,f(x))]\mathcal{R}(f)=\mathbb{E}[\ell(y, f(x))].

由前面的内容可知

P(R(f^)inffFR(f)t)fF2exp(nt2/22).\mathbb{P}\left(\mathcal{R}(\hat{f}) - \underset{f\in\mathcal{F}}{\inf} \mathcal{R}(f) \geq t\right) \leq \sum_{f\in\mathcal{F}} 2\exp\left(-nt^2 / 2\ell_{\infty}^2\right).

因为有界随机变量是次高斯的, 设Zf=R^(f)R(f)Z_f = \widehat{\mathcal{R}}(f) - \mathcal{R}(f), 由于损失函数有界, ZfZ_f是次高斯随机变量. 对于一组次高斯随机变量{Zf:fF}\{Z_f : f\in\mathcal{F}\} , 根据次高斯随机变量最大值的性质:

首先, 我们知道对于单个次高斯随机变量ZZ , 其尾部概率满足P(Zt)2exp(t22σ2)\mathbb{P}(|Z|\geq t)\leq 2\exp\left(-\frac{t^2}{2\sigma^2}\right)σ2\sigma^2是与次高斯随机变量相关的参数, 这里对于ZfZ_f , 由损失函数有界可知σ\sigma\ell_{\infty}有关).

对于supfFZf\sup_{f\in\mathcal{F}}|Z_f| , 我们可以通过对P(supfFZft)\mathbb{P}\left(\sup_{f\in\mathcal{F}}|Z_f|\geq t\right)进行分析. 由前面得到的

P(R(f^)inffFR(f)t)fF2exp(nt2/22),\mathbb{P}\left(\mathcal{R}(\hat{f}) - \underset{f\in\mathcal{F}}{\inf} \mathcal{R}(f) \geq t\right) \leq \sum_{f\in\mathcal{F}} 2\exp\left(-nt^2 / 2\ell_{\infty}^2\right),

可以类似地得到

P(supfFR^(f)R(f)t)fF2exp(nt2/22)=2Fexp(nt2/22).\mathbb{P}\left(\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)|\geq t\right) \leq \sum_{f\in\mathcal{F}} 2\exp\left(-nt^2 / 2\ell_{\infty}^2\right)=2|\mathcal{F}|\exp\left(-nt^2 / 2\ell_{\infty}^2\right).

δ=2Fexp(nt2/22)\delta = 2|\mathcal{F}|\exp\left(-nt^2 / 2\ell_{\infty}^2\right) , 解出tt可得

t=2log(F/δ)n.t = \ell_{\infty}\sqrt{\frac{2\log(|\mathcal{F}|/\delta)}{n}}.

然后根据次高斯随机变量的期望与尾部概率的关系(对于次高斯随机变量ZZ , E[Z]\mathbb{E}[|Z|]supt>0tlog(1/P(Zt))\sup_{t > 0} t\sqrt{\log(1/\mathbb{P}(|Z|\geq t))}相关), 对于supfFR^(f)R(f)\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)| , 有:

E[supfFR^(f)R(f)]supt>0tlog(1P(supfFR^(f)R(f)t))supδ>02log(F/δ)nlog(2Fδ)\begin{align*} \mathbb{E}\left[\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)|\right] &\leq \sup_{t > 0} t\sqrt{\log\left(\frac{1}{\mathbb{P}\left(\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)|\geq t\right)}\right)}\\ &\leq \sup_{\delta > 0}\ell_{\infty}\sqrt{\frac{2\log(|\mathcal{F}|/\delta)}{n}}\sqrt{\log\left(\frac{2|\mathcal{F}|}{\delta}\right)}\\ \end{align*}

当取合适的δ\delta(例如δ=1\delta = 1 , 因为我们关注的是一个上界)时, E[supfFR^(f)R(f)]2log(F)n.\mathbb{E}\left[\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)|\right] \leq \ell_{\infty}\sqrt{\frac{2\log(|\mathcal{F}|)}{n}}.

因为R(f^)inffFR(f)2supfFR^(f)R(f)\mathcal{R}(\hat{f}) - \underset{f\in\mathcal{F}}{\inf} \mathcal{R}(f) \leq 2\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)| , 根据期望的性质E[X]E[Y]\mathbb{E}[X]\leq\mathbb{E}[Y](若XYX\leq Y), 则有:

E[R(f^)inffFR(f)]2E[supfFR^(f)R(f)]2log(F)n\mathbb{E}\left[\mathcal{R}(\hat{f}) - \underset{f\in\mathcal{F}}{\inf} \mathcal{R}(f)\right] \leq 2\mathbb{E}\left[\sup_{f\in\mathcal{F}}|\widehat{\mathcal{R}}(f) - \mathcal{R}(f)|\right] \leq \ell_{\infty}\sqrt{\frac{2\log(|\mathcal{F}|)}{n}}

从而完成了习题证明.

拉德马赫复杂度#

我们考虑nn个独立同分布的随机变量z1,,znZz_1, \ldots, z_n \in \mathcal{Z}, 以及一个从Z\mathcal{Z}R\mathbb{R}的函数类H\mathcal{H}. 在我们的研究背景中, 函数空间与学习问题的关系为:H={(x,y)(y,f(x)),fF}\mathcal{H} = \{(x, y) \mapsto \ell(y, f(x)), f \in \mathcal{F}\}.

本节的目标是为supfFR(f)R^(f)\sup_{f\in\mathcal{F}} \mathcal{R}(f) - \widehat{\mathcal{R}}(f)提供一个上界, 而它恰好等于

suphHE[h(z)]1ni=1nh(zi)\sup_{h\in\mathcal{H}} \mathbb{E}[h(z)] - \frac{1}{n} \sum_{i = 1}^{n} h(z_i)

其中E[h(z)]\mathbb{E}[h(z)]表示关于一个与所有ziz_i具有相同分布的变量的期望.

我们用D={z1,,zn}\mathcal{D} = \{z_1, \ldots, z_n\}表示数据. 我们定义从Z\mathcal{Z}R\mathbb{R}的函数类H\mathcal{H}的拉德马赫复杂度为:

Rn(H)=Eε,D(suphH1ni=1nεih(zi))R_n(\mathcal{H}) = \mathbb{E}_{\boldsymbol{\varepsilon}, \mathcal{D}}\left(\sup_{h\in\mathcal{H}} \frac{1}{n} \sum_{i = 1}^{n} \varepsilon_i h(z_i)\right)

其中εRn\boldsymbol{\varepsilon} \in \mathbb{R}^n是一个由独立的拉德马赫随机变量组成的向量(即取值为1-111的概率相等), 并且它也与D\mathcal{D}相互独立. 这是一个仅取决于nnH\mathcal{H}的确定性量.

换句话说, 拉德马赫复杂度等于函数hh在观测值ziz_i处的取值与随机标签之间的最大点积的期望. 它是对函数类H\mathcal{H}的“容量”的一种度量.

对称化#

通过一种通用的“对称化”性质将其与均匀偏差联系起来, 该性质表明拉德马赫复杂度能直接控制期望均匀偏差.

其中εRn\boldsymbol{\varepsilon} \in \mathbb{R}^n是由独立的拉德马赫随机变量组成的向量(这些随机变量以相等的概率取值1-111), 并且它也与D\mathcal{D}相互独立. 拉德马赫复杂度是一个仅取决于nnH\mathcal{H}的确定性量.

换句话说, 拉德马赫复杂度等于函数hh在观测值ziz_i处的取值与随机标签之间的最大点积的期望. 它是对函数类H\mathcal{H}的“容量”的一种度量. 我们稍后会看到, 在许多有趣的情形中它是可以计算出来的, 并且能得出有趣且强有力的上界.

首先, 我们通过一种通用的“对称化”性质将其与均匀偏差联系起来, 该性质表明拉德马赫复杂度能直接控制期望均匀偏差.

命题:

Rn(H)=Eε,D(suphH1ni=1nεih(zi))R_n(\mathcal{H}) = \mathbb{E}_{\boldsymbol{\varepsilon}, \mathcal{D}}\left(\sup_{h\in\mathcal{H}} \frac{1}{n} \sum_{i = 1}^{n} \varepsilon_i h(z_i)\right)

所定义的函数类H\mathcal{H}的拉德马赫复杂度, 我们有:

E[suphH(1ni=1nh(zi)E[h(z)])]2Rn(H), E[suphH(E[h(z)]1ni=1nh(zi))]2Rn(H).\mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}h(z_i)-\mathbb{E}[h(z)]\right)\right] \leq 2R_n(\mathcal{H}), ~\mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\mathbb{E}[h(z)] - \frac{1}{n}\sum_{i = 1}^{n}h(z_i)\right)\right] \leq 2R_n(\mathcal{H}).

证明:D={z1,,zn}\mathcal{D}' = \{z_1', \ldots, z_n'\}是数据D={z1,,zn}\mathcal{D} = \{z_1, \ldots, z_n\}的一个独立副本. 设(εi)i{1,,n}(\varepsilon_i)_{i\in\{1,\ldots,n\}} 是独立同分布的拉德马赫随机变量, 它们也与D\mathcal{D}D\mathcal{D}'相互独立. 利用对于所有i{1,,n}i \in \{1, \ldots, n\} , E[h(zi)D]=E[h(z)]\mathbb{E}[h(z_i')|\mathcal{D}] = \mathbb{E}[h(z)]这一性质, 我们有:

E[suphH(E[h(z)]1ni=1nh(zi))]=E[suphH(1ni=1nE[h(zi)D]1ni=1nh(zi))]=E[suphH(1ni=1nE[h(zi)h(zi)D])]\begin{align*} \mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\mathbb{E}[h(z)] - \frac{1}{n}\sum_{i = 1}^{n}h(z_i)\right)\right]&=\mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}\mathbb{E}[h(z_i')|\mathcal{D}] - \frac{1}{n}\sum_{i = 1}^{n}h(z_i)\right)\right]\\ &=\mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}\mathbb{E}[h(z_i') - h(z_i)|\mathcal{D}]\right)\right] \end{align*}

这是根据独立副本D\mathcal{D}'的定义得到的. 然后

E[suphH(E[h(z)]1ni=1nh(zi))]E[E(suphH(1ni=1nh(zi)h(zi))D)]利用上确界的期望小于期望的上确界这一性质=E[suphH(1ni=1nh(zi)h(zi))] 根据期望的塔式法则=E[suphH(1ni=1nεi(h(zi)h(zi)))] 根据 εi 的对称性法则E[suphH(1ni=1nεih(zi))]+E[suphH(1ni=1nεi(h(zi)))]=2E[suphH(1ni=1nεih(zi))]=2Rn(H)\begin{align*} \mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\mathbb{E}[h(z)] - \frac{1}{n}\sum_{i = 1}^{n}h(z_i)\right)\right] &\leq \mathbb{E}\left[\mathbb{E}\left(\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}|h(z_i') - h(z_i)|\right)\big|\mathcal{D}\right)\right] \\ & \text{利用上确界的期望小于期望的上确界这一性质}\\ &= \mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}|h(z_i') - h(z_i)|\right)\right] \text{ 根据期望的塔式法则}\\ &= \mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}\varepsilon_i(h(z_i') - h(z_i))\right)\right] \text{ 根据 }\varepsilon_i\text{ 的对称性法则}\\ &\leq \mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}\varepsilon_i h(z_i')\right)\right] + \mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}\varepsilon_i(- h(z_i))\right)\right]\\ &= 2\mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}\varepsilon_i h(z_i)\right)\right]= 2R_n(\mathcal{H}) \end{align*}

对于E[suphH(1ni=1nh(zi)E[h(z)])]2Rn(H)\mathbb{E}\left[\sup_{h\in\mathcal{H}}\left(\frac{1}{n}\sum_{i = 1}^{n}h(z_i)-\mathbb{E}[h(z)]\right)\right] \leq 2R_n(\mathcal{H}) 的推理本质上是相同的.

H\mathcal{H} 是有限的, 且对于所有hHh \in \mathcal{H} 以及几乎所有的zz , 都有h(z)|h(z)| \leq \ell_{\infty} , 计算Rn(H)R_n(\mathcal{H}) 的上界

证明: (1)计算 Rn(H)R_n(\mathcal{H}) 的上界 已知 H\mathcal{H} 是有限的, 设 H={h1,h2,,hm}\mathcal{H}=\{h_1, h_2, \ldots, h_m\}mm 为有限正整数), 且对于所有 hHh \in \mathcal{H} 以及几乎所有的 zz , 都有 h(z)|h(z)| \leq \ell_{\infty} .

根据拉德马赫复杂度的定义 Rn(H)=Eε,D(suphH1ni=1nεih(zi))R_n(\mathcal{H}) = \mathbb{E}_{\boldsymbol{\varepsilon}, \mathcal{D}}\left(\sup_{h\in\mathcal{H}} \frac{1}{n} \sum_{i = 1}^{n} \varepsilon_i h(z_i)\right) , 其中 εRn\boldsymbol{\varepsilon} \in \mathbb{R}^n 是由独立的拉德马赫随机变量(取值为 1-111 且概率相等)组成的向量, 且与 D={z1,z2,,zn}\mathcal{D}=\{z_1, z_2, \ldots, z_n\} 相互独立.

由于 suphH1ni=1nεih(zi)suphH1ni=1nεih(zi)\sup_{h\in\mathcal{H}} \frac{1}{n} \sum_{i = 1}^{n} \varepsilon_i h(z_i) \leq \sup_{h\in\mathcal{H}} \frac{1}{n} \sum_{i = 1}^{n} |\varepsilon_i h(z_i)| , 又因为 εi=1|\varepsilon_i| = 1h(zi)|h(z_i)| \leq \ell_{\infty} , 所以有:

suphH1ni=1nεih(zi)1ni=1nsuphHh(zi)\sup_{h\in\mathcal{H}} \frac{1}{n} \sum_{i = 1}^{n} |\varepsilon_i h(z_i)| \leq \frac{1}{n} \sum_{i = 1}^{n} \sup_{h\in\mathcal{H}}|h(z_i)| \leq \ell_{\infty}

对其求期望可得:

Rn(H)=Eε,D(suphH1ni=1nεih(zi))Eε,D[]=R_n(\mathcal{H}) = \mathbb{E}_{\boldsymbol{\varepsilon}, \mathcal{D}}\left(\sup_{h\in\mathcal{H}} \frac{1}{n} \sum_{i = 1}^{n} \varepsilon_i h(z_i)\right) \leq \mathbb{E}_{\boldsymbol{\varepsilon}, \mathcal{D}}[\ell_{\infty}] = \ell_{\infty}

进一步, 利用独立随机变量的性质和期望的计算方法, 我们可以更精确地计算.

Rn(H)=Eε[ED(suphH1ni=1nεih(zi))]Eε[2logmn]=2logmn\begin{align*} R_n(\mathcal{H})&=\mathbb{E}_{\boldsymbol{\varepsilon}}\left[\mathbb{E}_{\mathcal{D}}\left(\sup_{h\in\mathcal{H}} \frac{1}{n} \sum_{i = 1}^{n} \varepsilon_i h(z_i)\right)\right]\\ &\leq \mathbb{E}_{\boldsymbol{\varepsilon}}\left[\sqrt{\frac{2\log m}{n}}\ell_{\infty}\right]\\ &=\sqrt{\frac{2\log m}{n}}\ell_{\infty} \end{align*}

这里利用了次高斯随机变量的性质以及有限个随机变量最大值的相关结论. 因为 1ni=1nεih(zi)\frac{1}{n} \sum_{i = 1}^{n} \varepsilon_i h(z_i) 可以看作是次高斯随机变量的组合, 对于有限个次高斯随机变量的上确界, 有类似的集中不等式可以使用.

利普希茨连续损失函数#

在我们的研究背景下, 有一个特别引人关注的性质, 有时被称为“收缩原理”(其证明源自迈尔(Meir)和张(Zhang)在2003年发表的论文中的引理5, 证明过程较为简单).

收缩原理#

给定任意函数b,ai:ΘRb, a_i : \Theta \to \mathbb{R}(不做其他假设)以及φi:RR\varphi_i : \mathbb{R} \to \mathbb{R} 为任意1 - 利普希茨函数, 其中i=1,,ni = 1,\ldots,n . 对于εRn\boldsymbol{\varepsilon} \in \mathbb{R}^n 这个由独立拉德马赫随机变量组成的向量, 我们有:

Eε[supθΘb(θ)+i=1nεiφi(ai(θ))]Eε[supθΘb(θ)+i=1nεiai(θ)].\mathbb{E}_{\boldsymbol{\varepsilon}}\left[\sup_{\theta\in\Theta}b(\theta) + \sum_{i = 1}^{n}\varepsilon_i\varphi_i(a_i(\theta))\right] \leq \mathbb{E}_{\boldsymbol{\varepsilon}}\left[\sup_{\theta\in\Theta}b(\theta) + \sum_{i = 1}^{n}\varepsilon_i a_i(\theta)\right].

证明: 我们采用对nn进行归纳的方法来证明. n=0n = 0 的情况是显然成立的, 接下来我们说明如何从n0n \geq 0 推导到n+1n + 1 的情况. 因此, 我们考虑Eε1,,εn+1[supθΘb(θ)+i=1n+1εiφi(ai(θ))]\mathbb{E}_{\varepsilon_1,\ldots,\varepsilon_{n + 1}}\left[\sup_{\theta\in\Theta}b(\theta) + \sum_{i = 1}^{n + 1}\varepsilon_i\varphi_i(a_i(\theta))\right] .
通过考虑εn+1\varepsilon_{n + 1} 两种取值可能性(每种概率为1/21/2), 显式地计算关于εn+1\varepsilon_{n + 1} 的期望:

Eε1,,εn+1[supθΘb(θ)+i=1n+1εiφi(ai(θ))]=12Eε1,,εn[supθΘb(θ)+i=1nεiφi(ai(θ))+φn+1(an+1(θ))]+12Eε1,,εn[supθΘb(θ)+i=1nεiφi(ai(θ))φn+1(an+1(θ))]=Eε1,,εn[supθ,θΘb(θ)+b(θ)2+i=1nεiφi(ai(θ))+φi(ai(θ))2+φn+1(an+1(θ))φn+1(an+1(θ))2]\begin{align*} &\mathbb{E}_{\varepsilon_1,\ldots,\varepsilon_{n + 1}}\left[\sup_{\theta\in\Theta}b(\theta) + \sum_{i = 1}^{n + 1}\varepsilon_i\varphi_i(a_i(\theta))\right]\\ =&\frac{1}{2}\mathbb{E}_{\varepsilon_1,\ldots,\varepsilon_{n}}\left[\sup_{\theta\in\Theta}b(\theta) + \sum_{i = 1}^{n}\varepsilon_i\varphi_i(a_i(\theta)) + \varphi_{n + 1}(a_{n + 1}(\theta))\right] + \frac{1}{2}\mathbb{E}_{\varepsilon_1,\ldots,\varepsilon_{n}}\left[\sup_{\theta\in\Theta}b(\theta) + \sum_{i = 1}^{n}\varepsilon_i\varphi_i(a_i(\theta)) - \varphi_{n + 1}(a_{n + 1}(\theta))\right]\\ =&\mathbb{E}_{\varepsilon_1,\ldots,\varepsilon_{n}}\left[\sup_{\theta,\theta'\in\Theta}\frac{b(\theta) + b(\theta')}{2} + \sum_{i = 1}^{n}\varepsilon_i\frac{\varphi_i(a_i(\theta)) + \varphi_i(a_i(\theta'))}{2} + \frac{\varphi_{n + 1}(a_{n + 1}(\theta)) - \varphi_{n + 1}(a_{n + 1}(\theta'))}{2}\right] \end{align*}

这是通过将各项合并得到的. 通过对(θ,θ)(\theta, \theta')(θ,θ)(\theta', \theta) 取上确界, 我们得到:

Eε1,,εn[supθ,θΘb(θ)+b(θ)2+i=1nεiφi(ai(θ))+φi(ai(θ))2+φn+1(an+1(θ))φn+1(an+1(θ))2]Eε1,,εn[supθ,θΘb(θ)+b(θ)2+i=1nεiφi(ai(θ))+φi(ai(θ))2+an+1(θ)an+1(θ)2]\begin{align*} &\mathbb{E}_{\varepsilon_1,\ldots,\varepsilon_{n}}\left[\sup_{\theta,\theta'\in\Theta}\frac{b(\theta) + b(\theta')}{2} + \sum_{i = 1}^{n}\varepsilon_i\frac{\varphi_i(a_i(\theta)) + \varphi_i(a_i(\theta'))}{2} + \frac{|\varphi_{n + 1}(a_{n + 1}(\theta)) - \varphi_{n + 1}(a_{n + 1}(\theta'))|}{2}\right]\\ \leq&\mathbb{E}_{\varepsilon_1,\ldots,\varepsilon_{n}}\left[\sup_{\theta,\theta'\in\Theta}\frac{b(\theta) + b(\theta')}{2} + \sum_{i = 1}^{n}\varepsilon_i\frac{\varphi_i(a_i(\theta)) + \varphi_i(a_i(\theta'))}{2} + \frac{|a_{n + 1}(\theta) - a_{n + 1}(\theta')|}{2}\right] \end{align*}

这里使用了利普希茨连续性. 我们可以在φn+1\varphi_{n + 1} 为恒等函数的情况下重复完全相同的等式推导过程, 从而得出上述最后一个表达式等于:

Eε1,,εnEεn+1[supθΘb(θ)+εn+1an+1(θ)+i=1nεiφi(ai(θ))]Eε1,,εn,εn+1[supθΘb(θ)+εn+1an+1(θ)+i=1nεiai(θ)]\begin{align*} &\mathbb{E}_{\varepsilon_1,\ldots,\varepsilon_{n}}\mathbb{E}_{\varepsilon_{n + 1}}\left[\sup_{\theta\in\Theta}b(\theta) + \varepsilon_{n + 1}a_{n + 1}(\theta) + \sum_{i = 1}^{n}\varepsilon_i\varphi_i(a_i(\theta))\right]\\ \leq&\mathbb{E}_{\varepsilon_1,\ldots,\varepsilon_{n},\varepsilon_{n + 1}}\left[\sup_{\theta\in\Theta}b(\theta) + \varepsilon_{n + 1}a_{n + 1}(\theta) + \sum_{i = 1}^{n}\varepsilon_i a_i(\theta)\right] \end{align*}

这里使用了归纳假设, 最终得到了我们想要的结果.

我们可以将上述收缩原理应用于监督学习场景. 在该场景中, 对于所有的ii , 几乎必然有ui(yi,ui)u_i\mapsto\ell(y_i, u_i)GG - 利普希茨连续的(这在回归问题中是可行的, 或者如4.1节所述, 在二元分类中使用凸替代函数时也是可行的), 由此可得:

根据收缩原理, Eε(supfF1ni=1nεi(yi,f(xi))D)GEε(supfF1ni=1nεif(xi)D),\mathbb{E}_{\boldsymbol{\varepsilon}}\left(\sup_{f\in\mathcal{F}} \frac{1}{n} \sum_{i = 1}^{n} \varepsilon_i\ell(y_i, f(x_i)) \mid \mathcal{D}\right) \leq G\cdot\mathbb{E}_{\boldsymbol{\varepsilon}}\left(\sup_{f\in\mathcal{F}} \frac{1}{n} \sum_{i = 1}^{n} \varepsilon_i f(x_i) \mid \mathcal{D}\right),

这进而得出 Rn(H)GRn(F)\mathcal{R}_n(\mathcal{H}) \leq G\cdot\mathcal{R}_n(\mathcal{F}) .

因此, 预测函数类的拉德马赫复杂度控制着经验风险的均匀偏差. 现在我们来看一些简单的例子.

球约束线性预测#

现在我们假设F={fθ(x)=θφ(x),Ω(θ)D}\mathcal{F} = \{f_{\theta}(x) = \theta^{\top}\varphi(x), \Omega(\theta) \leq D\}, 其中Ω\OmegaRd\mathbb{R}^d上的一个范数. 我们用ΦRn×d\Phi\in\mathbb{R}^{n\times d}表示设计矩阵. 于是有:

Rn(F)=E[supΩ(θ)D(1ni=1nεiθφ(xi))]=E[supΩ(θ)D1nεΦθ]=DnE[Ω(Φε)]\begin{align*} \mathcal{R}_n(\mathcal{F})&=\mathbb{E}\left[\sup_{\Omega(\theta)\leq D}\left(\frac{1}{n}\sum_{i = 1}^{n}\varepsilon_i\theta^{\top}\varphi(x_i)\right)\right]=\mathbb{E}\left[\sup_{\Omega(\theta)\leq D}\frac{1}{n}\varepsilon^{\top}\Phi\theta\right]\\ &=\frac{D}{n}\mathbb{E}[\Omega^*(\Phi^{\top}\varepsilon)] \end{align*}

其中Ω(u)=supΩ(θ)1uθ\Omega^*(u)=\sup_{\Omega(\theta)\leq1}u^{\top}\thetaΩ\Omega的对偶范数. 例如, 当Ω\Omegap\ell_p范数, p[1,+]p\in[1, +\infty]时, 那么Ω\Omega^*q\ell_q范数, 其中qq满足1p+1q=1\frac{1}{p}+\frac{1}{q}=1, 比如, 2=2\|\cdot\|_2^* = \|\cdot\|_2, 1=\|\cdot\|_1^*=\|\cdot\|_{\infty}, 且=1\|\cdot\|_{\infty}^*=\|\cdot\|_1.

因此, 计算拉德马赫复杂度等价于计算范数的期望. 当Ω=2\Omega = \|\cdot\|_2时, 我们可得:

Rn(F)=DnE[Φε2]DnE[Φε22](根据詹森不等式)=DnE[tr[ΦεεΦ]]=DnE[tr[ΦΦ]](利用 E[εε]=I=Dni=1nE[(ΦΦ)ii]=Dni=1nE[φ(xi)22]=DnE[φ(x)22](4.10)\begin{align*} \mathcal{R}_n(\mathcal{F})&=\frac{D}{n}\mathbb{E}[\|\Phi^{\top}\varepsilon\|_2]\\ &\leq\frac{D}{n}\sqrt{\mathbb{E}[\|\Phi^{\top}\varepsilon\|_2^2]}\quad\text{(根据詹森不等式)}\\ &=\frac{D}{n}\sqrt{\mathbb{E}[\text{tr}[\Phi^{\top}\varepsilon\varepsilon^{\top}\Phi]]}\\ &=\frac{D}{n}\sqrt{\mathbb{E}[\text{tr}[\Phi^{\top}\Phi]]}\quad\text{(利用 }\mathbb{E}[\varepsilon\varepsilon^{\top}]=I\text{)}\\ &=\frac{D}{n}\sqrt{\sum_{i = 1}^{n}\mathbb{E}[(\Phi^{\top}\Phi)_{ii}]}=\frac{D}{n}\sqrt{\sum_{i = 1}^{n}\mathbb{E}[\|\varphi(x_i)\|_2^2]}=\frac{D}{\sqrt{n}}\sqrt{\mathbb{E}[\|\varphi(x)\|_2^2]}\quad(4.10) \end{align*}

这样我们就得到了一个与维度无关的拉德马赫复杂度.

习题: 求当Ω=1\Omega = \|\cdot\|_1时拉德马赫复杂度的上界.

证明: 已知Rn(F)=DnE[Ω(Φε)]\mathcal{R}_n(\mathcal{F}) = \frac{D}{n}\mathbb{E}[\Omega^*(\Phi^{\top}\varepsilon)], 其中Ω(u)=supΩ(θ)1uθ\Omega^*(u)=\sup_{\Omega(\theta)\leq1}u^{\top}\thetaΩ\Omega的对偶范数.

对于1\ell_1范数, 其对偶范数\ell_{\infty}范数, 即当Ω=1\Omega = \|\cdot\|_1时, Ω=\Omega^* = \|\cdot\|_{\infty}. \ell_{\infty}范数的定义为x=maxixi\|x\|_{\infty}=\max_{i}|x_i|, 其中x=(x1,x2,,xn)x=(x_1,x_2,\cdots,x_n)

Ω=1\Omega = \|\cdot\|_1时, 根据上述公式可得:

Rn(F)=DnE[Φε]\mathcal{R}_n(\mathcal{F}) = \frac{D}{n}\mathbb{E}[\|\Phi^{\top}\varepsilon\|_{\infty}]

Φ=(φ1,φ2,,φd)\Phi^{\top}=(\varphi_1,\varphi_2,\cdots,\varphi_d), 其中φi\varphi_iΦ\Phi^{\top}的列向量, ε=(ε1,ε2,,εn)\varepsilon = (\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n)^{\top}, 则Φε=i=1nεiφi\Phi^{\top}\varepsilon=\sum_{i = 1}^{n}\varepsilon_i\varphi_i. Φε=maxj=1di=1nεiφij\|\Phi^{\top}\varepsilon\|_{\infty}=\max_{j = 1}^{d}\left|\sum_{i = 1}^{n}\varepsilon_i\varphi_{ij}\right|, 其中φij\varphi_{ij}φi\varphi_i的第jj个元素.

根据绝对值不等式i=1naibii=1naibi\left|\sum_{i = 1}^{n}a_ib_i\right|\leq\sum_{i = 1}^{n}|a_i||b_i|, 可得: i=1nεiφiji=1nεiφij=i=1nφij\left|\sum_{i = 1}^{n}\varepsilon_i\varphi_{ij}\right|\leq\sum_{i = 1}^{n}|\varepsilon_i||\varphi_{ij}|=\sum_{i = 1}^{n}|\varphi_{ij}|(因为εi=1|\varepsilon_i| = 1) 所以

Φεmaxj=1di=1nφij.\|\Phi^{\top}\varepsilon\|_{\infty}\leq\max_{j = 1}^{d}\sum_{i = 1}^{n}|\varphi_{ij}|.

对其求期望可得:

E[Φε]E[maxj=1di=1nφij]\mathbb{E}[\|\Phi^{\top}\varepsilon\|_{\infty}]\leq\mathbb{E}\left[\max_{j = 1}^{d}\sum_{i = 1}^{n}|\varphi_{ij}|\right]

由于E[maxj=1di=1nφij]maxj=1di=1nE[φij]\mathbb{E}\left[\max_{j = 1}^{d}\sum_{i = 1}^{n}|\varphi_{ij}|\right]\leq\max_{j = 1}^{d}\sum_{i = 1}^{n}\mathbb{E}[|\varphi_{ij}|], 则:

Rn(F)=DnE[Φε]Dnmaxj=1di=1nE[φij]\mathcal{R}_n(\mathcal{F}) = \frac{D}{n}\mathbb{E}[\|\Phi^{\top}\varepsilon\|_{\infty}]\leq\frac{D}{n}\max_{j = 1}^{d}\sum_{i = 1}^{n}\mathbb{E}[|\varphi_{ij}|]

综上, 当Ω=1\Omega = \|\cdot\|_1时, 拉德马赫复杂度Rn(F)\mathcal{R}_n(\mathcal{F})的上界为Dnmaxj=1di=1nE[φij]\frac{D}{n}\max_{j = 1}^{d}\sum_{i = 1}^{n}\mathbb{E}[|\varphi_{ij}|] . 这个上界表达式反映了拉德马赫复杂度与设计矩阵Φ\Phi的元素期望以及约束参数DD之间的关系.

Ω=2\Omega = \|\cdot\|_2时得到的与维度无关的结果不同, 此上界形式与矩阵的维度ddnn都有一定关联, 在分析模型复杂度和泛化性能时需要综合考虑这些因素.

线性预测#

这里不假设损失函数是凸函数.

估计误差: 假设损失函数是GG - 利普希茨连续的, 线性预测函数满足F={fθ(x)=θφ(x),θ2D}\mathcal{F} = \{f_{\theta}(x) = \theta^{\top}\varphi(x), \|\theta\|_2 \leq D\} , 其中E[φ(x)22]R2\mathbb{E}[\|\varphi(x)\|_2^2] \leq R^2 . 设f^=fθ^F\hat{f} = f_{\hat{\theta}} \in \mathcal{F} 是经验风险的极小值点, 那么: E[R(fθ^)]infθ2DR(fθ)+2GRDn\mathbb{E}[\mathcal{R}(f_{\hat{\theta}})] \leq \underset{\|\theta\|_2\leq D}{\inf} \mathcal{R}(f_{\theta}) + \frac{2GRD}{\sqrt{n}}

证明: 如果我们假设在Rd\mathbb{R}^d 上存在R(fθ)\mathcal{R}(f_{\theta}) 的极小值点θ\theta_* , 那么近似误差的上界为:

infθ2DR(fθ)R(fθ)Ginfθ2DE[fθ(x)fθ(x)]=Ginfθ2DE[φ(x)(θθ)]Ginfθ2Dθθ2E[φ(x)2]GRinfθ2Dθθ2\begin{align*} \underset{\|\theta\|_2\leq D}{\inf} \mathcal{R}(f_{\theta}) - \mathcal{R}(f_{\theta_*}) &\leq G\underset{\|\theta\|_2\leq D}{\inf} \mathbb{E}[|f_{\theta}(x) - f_{\theta_*}(x)|]\\ &= G\underset{\|\theta\|_2\leq D}{\inf} \mathbb{E}[|\varphi(x)^{\top}(\theta - \theta_*)|]\\ &\leq G\underset{\|\theta\|_2\leq D}{\inf} \|\theta - \theta_*\|_2\mathbb{E}[\|\varphi(x)\|_2] \leq GR\underset{\|\theta\|_2\leq D}{\inf} \|\theta - \theta_*\|_2 \end{align*}

由此可得:

E[R(fθ^)]R(fθ)GRinfθ2Dθθ2+2GRDn=GR(θ2D)++2GRDn\mathbb{E}[\mathcal{R}(f_{\hat{\theta}})] - \mathcal{R}(f_{\theta_*}) \leq GR\underset{\|\theta\|_2\leq D}{\inf} \|\theta - \theta_*\|_2 + \frac{2GRD}{\sqrt{n}} = GR(\|\theta_*\|_2 - D)_+ + \frac{2GRD}{\sqrt{n}}

可以看到, 当D=θ2D = \|\theta_*\|_2 时, 我们得到上界2GRθ2n\frac{2GR\|\theta_*\|_2}{\sqrt{n}} , 但在实际应用中, θ2\|\theta_*\|_2 的值通常是未知的. 如果DD 取值过大, 估计误差会增大(导致过拟合);而如果DD 取值过小, 近似误差会迅速增大(当nn 趋于无穷时, 该误差值不会趋于00), 从而导致欠拟合.

考虑一个学习问题, 其损失函数关于第二个变量是11 - 利普希茨连续的, 函数类为fθ(x)=θφ(x)f_{\theta}(x) = \theta^{\top}\varphi(x) , 其中θ1D\|\theta\|_1 \leq D , 并且φ:XRd\varphi : \mathcal{X} \to \mathbb{R}^d , 几乎必然有φ(x)<R\|\varphi(x)\|_{\infty} \lt R . 给定期望风险R(fθ)\mathcal{R}(f_{\theta}) 和经验风险R^(fθ)\widehat{\mathcal{R}}(f_{\theta}) , 计算 E[supθ11R(fθ)R^(fθ)]\mathbb{E}\left[\sup_{\|\theta\|_1\leq 1}|\mathcal{R}(f_{\theta}) - \widehat{\mathcal{R}}(f_{\theta})|\right] 的上界.

证明: 已知损失函数关于第二个变量是11 - 利普希茨连续的, 即G=1G = 1. 函数类为fθ(x)=θφ(x)f_{\theta}(x)=\theta^{\top}\varphi(x), θ1D\|\theta\|_1\leq D, φ(x)\|\varphi(x)\|_{\infty}几乎必然小于RR.

Rn(F)=DnE[Ω(Φε)]\mathcal{R}_n(\mathcal{F})=\frac{D}{n}\mathbb{E}[\Omega^*(\Phi^{\top}\varepsilon)](其中Ω\Omega是关于θ\theta的范数, Ω\Omega^*是其对偶范数), 因为这里Ω=1\Omega = \|\cdot\|_1, 其对偶范数Ω=\Omega^*=\|\cdot\|_{\infty}.

Φ\Phi^{\top}的列向量为φi\varphi_i, Φε=i=1nεiφi\Phi^{\top}\varepsilon=\sum_{i = 1}^{n}\varepsilon_i\varphi_i, Φε=maxji=1nεiφij\|\Phi^{\top}\varepsilon\|_{\infty}=\max_{j}|\sum_{i = 1}^{n}\varepsilon_i\varphi_{ij}|φij\varphi_{ij}φi\varphi_i的第jj个元素).

根据绝对值不等式i=1nεiφiji=1nεiφij=i=1nφij|\sum_{i = 1}^{n}\varepsilon_i\varphi_{ij}|\leq\sum_{i = 1}^{n}|\varepsilon_i||\varphi_{ij}|=\sum_{i = 1}^{n}|\varphi_{ij}|εi=1|\varepsilon_i| = 1), 且φ(x)<R\|\varphi(x)\|_{\infty}\lt R, 即φij<R|\varphi_{ij}|\lt R.

所以Φεmaxji=1nφijnR\|\Phi^{\top}\varepsilon\|_{\infty}\leq\max_{j}\sum_{i = 1}^{n}|\varphi_{ij}|\leq nR, 对其求期望可得E[Φε]nR\mathbb{E}[\|\Phi^{\top}\varepsilon\|_{\infty}]\leq nR.

Rn(F)=DnE[Φε]DR\mathcal{R}_n(\mathcal{F})=\frac{D}{n}\mathbb{E}[\|\Phi^{\top}\varepsilon\|_{\infty}]\leq DR.

根据前面的结论, 结合收缩原理相关内容, 有E[supθR(fθ)R^(fθ)]2Rn(F)\mathbb{E}\left[\sup_{\theta}|\mathcal{R}(f_{\theta}) - \widehat{\mathcal{R}}(f_{\theta})|\right]\leq 2\mathcal{R}_n(\mathcal{F})(此处的关系可由前面章节关于对称化以及拉德马赫复杂度控制经验风险均匀偏差的内容推导得出).

Rn(F)DR\mathcal{R}_n(\mathcal{F})\leq DR代入可得:E[supθ11R(fθ)R^(fθ)]2DR\mathbb{E}\left[\sup_{\|\theta\|_1\leq 1}|\mathcal{R}(f_{\theta}) - \widehat{\mathcal{R}}(f_{\theta})|\right]\leq 2DR.

综上, E[supθ11R(fθ)R^(fθ)]\mathbb{E}\left[\sup_{\|\theta\|_1\leq 1}|\mathcal{R}(f_{\theta}) - \widehat{\mathcal{R}}(f_{\theta})|\right]的上界为2DR2DR.

从约束估计到正则化估计#

在实际应用中, 相较于施加约束, 使用范数Ω(θ)=θ2\Omega(\theta)=\|\theta\|_2 进行惩罚更为可取(主要原因是这样更容易找到超参数, 并且优化过程也更简便).

这里只考虑2\ell_2 范数.

我们现在用θ^λ\hat{\theta}_{\lambda} 表示

R^(fθ)+λ2θ22\widehat{\mathcal{R}}(f_{\theta})+\frac{\lambda}{2}\|\theta\|_2^2

的极小值点.

如果损失函数始终为正, 那么

λ2θ^λ22R^(fθ^λ)+λ2θ^λ22R^(f0).\frac{\lambda}{2}\|\hat{\theta}_{\lambda}\|_2^2\leq\widehat{\mathcal{R}}(f_{\hat{\theta}_{\lambda}})+\frac{\lambda}{2}\|\hat{\theta}_{\lambda}\|_2^2\leq\widehat{\mathcal{R}}(f_0).

由此可得θ^λ2=O(1/λ)\|\hat{\theta}_{\lambda}\|_2 = O(1/\sqrt{\lambda}) . 因此, 在上述上界中令D=O(1/λ)D = O(1/\sqrt{\lambda}) , 会得到O(1/n)O(1/\sqrt{n}) 量级的偏差, 这并非最优结果.

正则化目标的快速收敛速率#

假设损失函数是GG - 利普希茨连续的凸函数, 线性预测函数满足F={fθ(x)=θφ(x),θ2D}\mathcal{F} = \{f_{\theta}(x) = \theta^{\top}\varphi(x), \|\theta\|_2 \leq D\} , 其中E[φ(x)22]R2\mathbb{E}[\|\varphi(x)\|_2^2] \leq R^2 . 设θ^λRd\hat{\theta}_{\lambda} \in \mathbb{R}^d

R^(fθ)+λ2θ22\widehat{\mathcal{R}}(f_{\theta})+\frac{\lambda}{2}\|\theta\|_2^2

中正则化经验风险的极小值点, 那么:

E[R(fθ^λ)]infθRd{R(fθ)+λ2θ22}+32G2R2λn\mathbb{E}[\mathcal{R}(f_{\hat{\theta}_{\lambda}})] \leq \underset{\theta\in\mathbb{R}^d}{\inf} \left\{\mathcal{R}(f_{\theta}) + \frac{\lambda}{2}\|\theta\|_2^2\right\} + \frac{32G^2R^2}{\lambda n}

注意, 我们得到了一个O(R2/(λn))O(R^2/(\lambda n)) 量级的“快速收敛速率”, 它对nn 的依赖关系更好, 但依赖于λ\lambda , 而在实际应用中λ\lambda 可能非常小. λGRnθ2\lambda \propto \frac{GR}{\sqrt{n}\|\theta_*\|_2} , 这会导致较慢的收敛速率:

E[R(fθ^λ)]R(fθ)+O(GRnθ2)\mathbb{E}[\mathcal{R}(f_{\hat{\theta}_{\lambda}})] \leq \mathcal{R}(f_{\theta_*}) + O\left(\frac{GR}{\sqrt{n}}\|\theta_*\|_2\right)

扩展与改进:在处理二元分类问题, 或者更一般的离散输出问题时, 可以进行进一步分析. 对于所使用的凸替代函数和原始损失函数, 可能会有不同的收敛速率(例如, 在进行阈值处理后, 有时可以得到指数收敛速率). 这通常是在所谓的“低噪声”条件下进行研究的.

「机器学习」经验风险最小化
https://blog.mcj.life/posts/250322机器学习经验风险最小化/
Author
CiMorn
Published at
2025-03-22