风险的凸化#
在二元分类问题中, 为简化讨论, 聚焦于输出y∈{−1,1}的情况, 并采用0 - 1损失函数. 尽管如此, 其中多数概念能推广至更一般的结构化预测场景.
我们的目标是估计一个二元值函数. 常规做法是在二元值函数的假设空间(等同于X的子集空间)上最小化经验风险. 但此方法存在弊端:
一方面, 会引发组合问题, 计算过程极为复杂;
另一方面, 难以对这类假设空间进行模型容量控制, 即正则化操作存在困难.
解决方法#
摒弃直接学习取值为{−1,1}的二元函数f, 转而学习一个实值函数g:X→R, 通过f(x)=sign(g(x))来确定最终的二元分类结果. 其中sign(a)的定义为:
当a≥0时, sign(a)=1;当a<0时, sign(a)=−1 . 特别地, 当a=0时, sign(a)也可选−1, 这对应了在面对高度模糊的观测数据时, 随机从两个标签中选择一个的情况, 此时错误概率为50%.
风险函数#
函数f=sign∘g的风险记为R(g) , 从本质上来说, 它表示分类错误的概率. 具体可转化为R(g)=P(sign(g(x))=y)=E(1sign(g(x))=y)=E(1yg(x)<0)=EΦ0−1(yg(x)) . 这里的Φ0−1:R→R, 且Φ0−1(u)=1u<0, 被称作“基于间隔”的0 - 1损失函数, 简称0 - 1损失函数. 需要留意的是, 此处的0 - 1损失函数定义在R上.
经验风险最小化问题#
在实际应用中, 为实现经验风险最小化, 需要针对g:X→R最小化相应的经验风险n1∑i=1nΦ0−1(yig(xi)). 然而, Φ0−1函数具有不连续性, 并非凸函数, 这使得优化过程面临较大困难.
二次损失: Φ(u)=(u−1)2 . 因为y2=1, 所以
Φ(yg(x))=(y−g(x))2=(g(x)−y)2.
这样就回到了最小二乘法, 并且我们直接忽略了标签必须属于{−1,1}这一事实, 通过取g(x)的符号来进行预测.
需要注意的是, 当yΦ(x)为正值时, 会出现过度惩罚的情况, 而下面介绍的其他损失函数(它们是非递增的)则不会出现这种情况.
逻辑损失: Φ(u)=log(1+e−u) , 由此可得
Φ(yg(x))=log(1+e−yg(x))=−log(1+e−yg(x)1)=−log(σ(yg(x)))其中, σ(v)=1+e−v1是sigmoid函数. 注意这里与最大似然估计的联系, 我们通过P(y=1∣x)=σ(f(x)) 和P(y=−1∣x)=σ(−f(x))=1−σ(f(x)) 来定义模型.
此时, 风险就是负的条件对数似然E[−logp(y∣x)] . 它也常被称为交叉熵损失.
我们不最小化经典风险R(g) 或其经验版本, 而是最小化Φ风险(及其经验版本), 其定义如下:
RΦ(g)=E[Φ(yg(x))]在这种情况下, 函数g有时被称为分数函数 或评分函数.
支持向量机(SVM)的原理#
支持向量机常被用于分类任务. 这里考虑的是数据可分的情况, 即存在一个仿射超平面(在二维空间中是直线, 三维空间中是平面, 更高维就是超平面)能把不同类别的数据分开. 数据点用(xi,yi)表示, xi是d维的特征向量, yi是类别标签, 取值为−1或者1 , 代表两个不同的类别.
数据可分#
如果存在向量w∈Rd(超平面的法向量)和实数b∈R , 使得对于所有的i(从1到n) , 都有yi(w⊤xi+b)>0 , 那就说明数据是可分的. 这里w⊤xi+b=0就是超平面的方程, yi(w⊤xi+b)>0表示正类(yi=1)的数据点在超平面一侧, 负类(yi=−1)的数据点在超平面另一侧.
距离计算#
根据点到超平面的距离公式, 点xi到超平面{x∈Rd,w⊤x+b=0}的距离是 ∥w∥2∣w⊤xi+b∣. 因为yi的取值是±1 , 并且数据可分, 所以可以把距离写成∥w∥2yi(w⊤xi+b) . 那么数据集中离超平面最近的点的距离就是 mini∈{1,…,n}∥w∥2yi(w⊤xi+b).
优化问题转化#
支持向量机的目标是最大化这个最小距离. 又因为对w和b进行相同的缩放(乘以一个非零标量), 超平面是不变的, 所以可以将原问题转化为一个更方便求解的约束优化问题:
在满足对于任意i∈{1,…,n} , yi(w⊤xi+b)≥1的条件下, 最小化 21∥w∥22. 这里加个21是为了后续求导计算方便, 本质上和最小化∥w∥22是一样的.
这种转化后的优化问题, 通过求解就能得到合适的w和b , 从而确定最优的超平面, 也就是支持向量机的分类模型. 而那些使得yi(w⊤xi+b)=1的数据点就被称为支持向量, 它们决定了超平面的位置.
一般数据#
引入松弛变量#
当数据不能被超平面分开时, 之前可分数据情况下的约束条件 yi(w⊤xi+b)≥1 无法全部满足. 为了让模型能处理这种情况, 引入松弛变量 ξi≥0(i=1,…,n), 将约束条件放宽为 yi(w⊤xi+b)≥1−ξi. 这样即使有些点不能满足原来严格的分类条件, 也可以通过给它一个合适的松弛量来纳入模型考虑.
构建目标函数#
一方面, 我们仍希望超平面的法向量 w 的范数尽量小, 也就是让 21∥w∥22 尽可能小, 这和可分数据时寻找“最优超平面”的思路一致, 保证超平面的稳定性和泛化能力.
另一方面, 为了控制松弛的程度, 不能让松弛变量随意取值过大, 所以要对松弛变量进行约束. 这里通过最小化所有松弛变量的总和 ∑i=1nξi 来实现. 同时, 引入一个惩罚参数 C>0 来平衡 21∥w∥22 和 ∑i=1nξi 这两项的重要性. C 越大, 表示对分类错误(即松弛变量的存在)的惩罚越重.
综合这两方面, 就构建出了目标函数 21∥w∥22+C∑i=1nξi,
并且要在约束条件“对于任意 i∈{1,…,n}, 有 yi(w⊤xi+b)≥1−ξi 且 ξi≥0”下, 求该目标函数关于 w∈Rd、b∈R 和 ξ∈Rn 的最小值, 即: minw∈Rd,b∈R,ξ∈Rn21∥w∥22+C∑i=1nξi
等价变换#
令 λ=nC1, 对上述问题进行进一步的等价变换. 这里利用了铰链损失函数 (1−yi(w⊤xi+b))+ 的性质(其中 (⋅)+ 表示取正数部分, 即 z+=max{0,z} ), 将问题转化为:
minw∈Rd,b∈Rn1∑i=1n(1−yi(w⊤xi+b))++2λ∥w∥22
这个式子就是带有铰链损失的 ℓ2 正则化经验风险最小化问题, 它从另一个角度描述了在数据不可分情况下, 支持向量机通过最小化经验风险(包含铰链损失部分)和正则化项(2λ∥w∥22 )来寻找合适的参数 w 和 b 的过程 .
从minw∈Rd,b∈R,ξ∈Rn21∥w∥22+C∑i=1nξi(满足yi(w⊤xi+b)≥1−ξi且ξi≥0)转化为minw∈Rd,b∈Rn1∑i=1n(1−yi(w⊤xi+b))++2λ∥w∥22 , 主要有以下步骤:
已知约束条件yi(w⊤xi+b)≥1−ξi, 移项可得ξi≥1−yi(w⊤xi+b). 又因为ξi≥0, 那么ξi应该取max{0,1−yi(w⊤xi+b)}, 也就是(1−yi(w⊤xi+b))+ .
这一步的原理是, ξi要同时满足非负和对原分类条件的松弛要求, 所以它的取值就是1−yi(w⊤xi+b) 为正的部分(如果为负就取0 ).
令λ=nC1, 即C=nλ1 .
原目标函数21∥w∥22+C∑i=1nξi, 将ξi=(1−yi(w⊤xi+b))+ 和C=nλ1代入可得:
==21∥w∥22+nλ1i=1∑n(1−yi(w⊤xi+b))+2λλ∥w∥22+nλ1i=1∑n(1−yi(w⊤xi+b))+n1i=1∑n(1−yi(w⊤xi+b))++2λ∥w∥22同时, 由于已经通过对ξi的等价替换, 将其约束条件融入到新的表达式中, 所以优化变量从w∈Rd、b∈R 和ξ∈Rn变为w∈Rd 和b∈R .
这样就完成了从最初带有松弛变量的优化问题到带有铰链损失的ℓ2正则化经验风险最小化问题的转化 .
拉格朗日对偶与支持向量#
考虑非负的拉格朗日乘子αi和βi, 其中i∈{1,…,n}, 并构建如下拉格朗日函数:
L(w,b,ξ,α,β)=21∥w∥22+C∑i=1nξi−∑i=1nαi(yi(w⊤xi+b)−1+ξi)−∑i=1nβiξi
关于ξ∈Rn求最小值, 会得到约束条件:对于任意i∈{1,…,n}, αi+βi=C;关于b求最小值, 会得到约束条件∑i=1nyiαi=0 . 最后, 关于w求最小值可以得到闭式解w=∑i=1nαiyixi . 这就得到了对偶优化问题:
maxα∈Rn∑i=1nαi−21∑i,j=1nαiαjyiyjxi⊤xj, 约束条件为∑i=1nyiαi=0且对于任意i∈{1,…,n}, αi∈[0,C]
正如我们将在第7章针对所有带有线性预测器的ℓ2正则化学习问题中所展示的那样, 该优化问题仅依赖于点积xi⊤xj(i,j=1,…,n), 并且最优预测器可以写成输入数据点xi(i=1,…,n)的线性组合. 此外, 对于最优的原变量和对偶变量, 线性不等式约束的“互补松弛性”条件会得出αi(yi(w⊤xi+b)−1+ξi)=0以及(C−αi)ξi=0 . 这意味着只要yi(w⊤xi+b)<1, 就有αi=0 . 因此, 许多αi都等于0, 而最优预测器只是少数几个数据点xi的线性组合, 这些数据点就被称为“支持向量” .
条件Φ风险与分类校准#
大多数凸替代损失函数都是0 - 1损失的上界, 并且通过重新缩放都能成为上界. 仅将此作为凸替代损失函数性能良好的理由是具有误导性的, 除非是贝叶斯(即最优)预测器的风险几乎为零的问题(只有在这种情况下才可能出现贝叶斯风险为零) .
如果我们记η(x)=P(y=1∣x)∈[0,1], 那么我们有E[y∣x]=2η(x)−1, 则
R(g)=E[Φ0−1(yg(x))]=E[E[1(g(x)y)=y∣x]]⩾E[min(η(x),1−η(x))]=R∗
并且一个最优分类器是f∗(x)=sign(2η(x)−1). 除了2η(x)−1之外, 还有许多其他可能的函数g(x), 使得f∗(x)=sign(g(x))是最优的.
第一个(不太重要的)原因是当η(x)=1/2时, 预测的选择具有任意性. 另一个原因是g(x)只需与2η(x)−1具有相同的符号, 这就导致了除2η(x)−1之外的许多可能性.
为了研究使用Φ风险的影响, 我们首先来看条件风险(对于给定的x, 就像对于0 - 1损失一样, 使Φ风险最小化的函数g可以通过分别研究每个x来确定) .
条件Φ风险#
设g:X→R, 我们将条件Φ风险定义为 E[Φ(yg(x))∣x]=η(x)Φ(g(x))+(1−η(x))Φ(−g(x))a, 我们记为Cη(x)(g(x)), 其中
Cη(α)=ηΦ(α)+(1−η)Φ(−α).对于凸替代损失函数, 我们至少可以期望在总体情况下, 当所有x相互独立时, 通过最小化条件Φ风险得到的最优g(x)能产生与贝叶斯预测器完全相同的预测(至少当该预测是唯一的时候).
换句话说, 由于预测是sign(g(x)), 我们希望对于任意η∈[0,1]时
(正的最优预测) η>1/2⇔α∈RargminCη(α)⊂R+∗
(负的最优预测) η<1/2⇔α∈RargminCη(α)⊂R−∗
满足这两个条件的函数Φ被称为分类校准的, 或简称为校准的. 结果表明, 当Φ是凸函数时, 有一个简单的充要条件:
命题: 设Φ:R→R为凸函数. Φ是校准的, 当且仅当Φ在0点可微且Φ′(0)<0.
证明: 由于Φ是凸函数, 对于任意η∈[0,1], Cη也是凸函数. 因此, 我们只需考虑在0点的左导数和右导数, 以得到关于极小值点位置的条件, 有以下两种情况(极小值点在R+中, 当且仅当在0点的右导数严格为负;极小值点在R−中, 当且仅当在0点的左导数严格为正):
α∈RargminCη(α)⊂R+α∈RargminCη(α)⊂R−⇔(Cη)+(0)′=ηΦ+′(0)−(1−η)Φ−′(0)<0⇔(Cη)−(0)′=ηΦ−′(0)−(1−η)Φ+′(0)>0(4.6)(4.7)(a) 假设Φ是校准的. 在公式(4.6)中, 令η趋于1/2+, 可得(C1/2)+(0)′=21[Φ+′(0)−Φ−′(0)]≤0. 由于Φ是凸函数, 我们总有Φ+′(0)−Φ−′(0)≥0. 因此, 左导数和右导数相等, 这意味着Φ在0点可微. 然后Cη′(0)=(2η−1)Φ′(0), 我们需要Φ′(0)<0.
(b) 假设Φ在0点可微且Φ′(0)<0, 那么Cη′(0)=(2η−1)Φ′(0);
风险与F风险之间的关系#
F风险:Φ - 风险
既然我们知道对于任意x∈X, 关于g(x)最小化Cη(x)(g(x)) 可通过sign(g(x))得到最优预测, 我们希望确保对超额Φ - 风险进行显式控制能够进而对原始超额风险进行显式控制.
换句话说, 我们要寻找一个单调函数H:R+→R+, 使得R(g)−R∗≤H[RΦ(g)−RΦ∗],其中RΦ∗是可能的最小Φ - 风险. 函数H通常被称为校准函数.
与最小二乘回归的情况不同(在最小二乘回归中, 用于测试的损失函数直接就是经验风险最小化中所使用的损失函数), 这里有两个概念:测试误差R(g), 它是在对函数g进行零阈值处理后得到的;以及量RΦ(g), 有时也被称为测试损失.
命题: 对于任意函数g:X→R, 以及对于贝叶斯预测器g∗: R(g)−R(g∗)=E[1g(x)g∗(x)<0⋅∣2η(x)−1∣]. 此外, 我们有R(g)−R(g∗)≤E[∣2η(x)−1−g(x)∣].
证明: 我们将超额风险表示为: R(g)−R(g∗)=E[∣1sign(g(x))=y−1sign(g∗(x))=y∣∣x], 这是根据0 - 1损失的定义得到的.
对于任意给定的x∈X, 我们可以考虑η(x)−1/2和g(x)的符号的两种可能情况, 这会导致g和g∗有不同的预测结果, 即 (a) η(x)>1/2且g(x)<0, 以及 (b) η(x)<1/2且g(x)>0(等式情况无关紧要). 对于第一种情况, 关于y的期望是η(x)−(1−η(x))=2η(x)−1;而对于第二种情况, 我们得到1−2η(x). 通过将这两种情况合并为条件g(x)g∗(x)<0以及条件期望∣2η(x)−1∣, 我们得到第一个结果.
对于第二个结果, 我们简单利用这样一个事实:如果g(x)g∗(x)<0, 那么, 通过将情况分为两种(第一种是η(x)>1/2且g(x)<0, 第二种是η(x)<1/2且g(x)>0), 我们得到∣2η(x)−1∣≤∣2η(x)−1−g(x)∣, 从而得到第二个结果.
风险最小化分解#
我们考虑一个预测函数族F, 其中的预测函数f:X→Y. 经验风险最小化的目标是找到 f^∈f∈FargminR(f)=n1∑i=1nℓ(yi,f(xi)) .
我们可以将风险分解为如下两项:
R(f^)−R∗={R(f^)−f′∈FinfR(f′)}+{f′∈FinfR(f′)−R∗}=估计误差+近似误差一个经典的例子是函数族由Rd的一个子集进行参数化的情况, 即F={fθ,θ∈Θ}, 其中Θ⊂Rd. 这涵盖了神经网络, 以及最简单的线性模型形式fθ(x)=θ⊤φ(x)(对于某个特征向量φ(x) , 如第3章中所述) . 我们将使用具有利普希茨连续损失函数的线性模型作为示例, 并且通常会对ℓ2 - 范数∥θ∥2添加约束或惩罚项.
现在我们分别来讨论近似误差和估计误差.
近似误差#
对近似误差进行界定, 相当于对f∈FinfR(f)−R∗ 进行界定, 这需要对贝叶斯预测器(有时也称为“目标函数”)f∗ 做出假设(因此也涉及到测试分布), 以便实现非零的学习收益.
在本节中, 我们将重点关注模型族F={fθ,θ∈Θ} , 其中Θ⊂Rd(我们将在第7章考虑无穷维的情况)以及凸的利普希茨连续损失函数. 假设θ∗ 是在θ∈Rd 范围内R(fθ) 的极小值点(通常, 它不属于Θ ). 这意味着近似误差可分解为:
θ∈ΘinfR(fθ)−R∗=(θ∈ΘinfR(fθ)−θ∈RdinfR(fθ))+(θ∈RdinfR(fθ)−R∗).- 第二项θ∈RdinfR(fθ)−R∗ 是由所选的模型集fθ 产生的不可压缩近似误差.
- 函数θ↦R(fθ)−θ∈RdinfR(fθ) 是Rd 上的一个正值函数, 通常可以由某个范数(或其平方)Ω(θ−θ∗) 给出上界. 我们可以将上面的第一项θ∈ΘinfR(fθ)−θ∈RdinfR(fθ) 看作是θ∗ 和Θ 之间的“距离”.
例如: 如果所考虑的损失函数关于第二个变量是G− 利普希茨连续的
R(fθ)−R(fθ′)=E[ℓ(y,fθ(x))−ℓ(y,fθ′(x))]≤GE[∣fθ(x)−fθ′(x)∣] , 因此, 近似误差的这第二部分由G 乘以fθ∗ 与F={fθ,θ∈Θ} 之间的距离给出上界, 这里特定的距离d(θ,θ′)=E[∣fθ(x)−fθ′(x)∣] .
一个经典的例子是fθ(x)=θ⊤φ(x) , 且Θ={θ∈Rd,∥θ∥2≤D} , 这会得到上界GE[∥φ(x)∥2](∥θ∗∥2−D)+ , 如果∥θ∗∥2≤D , 该上界等于0(模型设定恰当的情况).
练习: 针对Θ 上的ℓ1 范数进行相同的计算.
证明: 已知损失函数关于第二个变量是G− 利普希茨连续的, 即
R(fθ)−R(fθ′)=E[ℓ(y,fθ(x))−ℓ(y,fθ′(x))]≤GE[∣fθ(x)−fθ′(x)∣].fθ(x)=θ⊤φ(x) , 在本题中我们要考虑Θ={θ∈Rd,∥θ∥1≤D} , 其中∥θ∥1=∑i=1d∣θi∣ . 设θ∗ 是在θ∈Rd 范围内R(fθ) 的极小值点.
计算E[∣fθ(x)−fθ′(x)∣]
- 首先, fθ(x)−fθ′(x)=θ⊤φ(x)−θ′⊤φ(x)=(θ−θ′)⊤φ(x)=∑i=1d(θi−θi′)φi(x) .
- 根据绝对值不等式∑i=1daibi≤∑i=1d∣ai∣∣bi∣ , 这里ai=θi−θi′ , bi=φi(x) , 则∣fθ(x)−fθ′(x)∣=∑i=1d(θi−θi′)φi(x)≤∑i=1d∣θi−θi′∣∣φi(x)∣ .
- 对其求期望可得E[∣fθ(x)−fθ′(x)∣]≤E[∑i=1d∣θi−θi′∣∣φi(x)∣]=∑i=1d∣θi−θi′∣E[∣φi(x)∣] .
计算近似误差上界
- 近似误差的第二部分由G 乘以fθ∗ 与F={fθ,θ∈Θ} 之间的距离给出上界.
- 我们要找θ∈Θ 使得E[∣fθ(x)−fθ∗(x)∣] 最小. 因为Θ={θ∈Rd,∥θ∥1≤D} , 根据ℓ1 范数的性质, E[∣fθ(x)−fθ∗(x)∣]≤∑i=1d∣θi−θ∗,i∣E[∣φi(x)∣] .
- 由∥θ∥1=∑i=1d∣θi∣≤D , 我们可以得到近似误差上界为G∑i=1dE[∣φi(x)∣](∥θ∗∥1−D)+ , 其中(a)+=max(0,a) . 当∥θ∗∥1≤D 时, 上界等于0 .
综上, 针对Θ 上的ℓ1 范数, 近似误差的上界为
Gi=1∑dE[∣φi(x)∣](∥θ∗∥1−D)+.
估计误差#
估计误差通常利用g∈g∈FargminR(g)(我们模型类的期望风险的极小值点)以及f^∈f∈FargminR(f)(经验风险的极小值点)来进行分解:
R(f^)−f∈FinfR(f)=R(f^)−R(g)={R(f^)−R(f^)}+{R(f^)−R(g)}+{R(g)−R(g)}≤f∈Fsup{R(f)−R(f)}+{R(f^)−R(g)}+f∈Fsup{R(f)−R(f)}≤f∈Fsup{R(f)−R(f)}+0+f∈Fsup{R(f)−R(f)}(根据f^的定义)通常, 该式进一步由2supf∈FR(f)−R(f)给出上界. 可以得出以下几点结论:
当f^不是R的全局极小值点, 而仅仅满足R(f^)≤f∈FinfR(f)+ε时, 那么优化误差ε必须添加到上述上界中.
均匀偏差会随着F的“规模”增大而增加, 并且通常会随着样本数量n的增加而减小.
一个关键问题是, 我们需要对所有f∈F进行统一控制:对于单个f, 我们可以对随机变量ℓ(y,f(x))应用任何集中不等式, 以得到O(1/n)量级的上界;然而, 在控制多个f值的最大偏差时, 总是存在一种小概率情况, 即这些偏差中的某一个会变得很大.
MacDiarmid不等式的应用#
麦克迪尔米德不等式: 设Z1,…,Zn是相互独立的随机变量(在任意可测空间Z中), 且f:Zn→R是一个“有界变差”函数, 即对于所有的i, 以及所有的z1,…,zn,zi′∈Z, 我们有:
∣f(z1,…,zi−1,zi,zi+1,…,zn)−f(z1,…,zi−1,zi′,zi+1,…,zn)∣≤c那么
P(∣f(Z1,…,Zn)−Ef(Z1,…,Zn)∣≥t)≤2exp(−2t2/(nc2))
设H(z1,…,zn)=supf∈F{R(f)−R(f)}, 其中随机变量zi=(xi,yi)相互独立且同分布, R(f)=n1∑i=1nℓ(yi,f(xi)). 我们用ℓ∞表示在数据生成分布的支撑集中, 对于所有(x,y)以及f∈F, 损失函数的最大绝对值 .
当将单个zi∈X×Y变为zi′∈X×Y时, H的偏差几乎必然至多为n2ℓ∞ .
因此, 应用麦克迪尔米德不等式, 在概率大于1−δ的情况下, 我们有:
H(z1,…,zn)−E[H(z1,…,zn)]≤nℓ∞2logδ1因此, 我们只需要对supf∈F{R(f)−R(f)} 和supf∈F{R(f)−R(f)} 的期望进行界定(通常它们会有相同的上界), 然后在此基础上加上nℓ∞2logδ1 .
二次函数#
我们将展示在二次损失函数和ℓ2球约束下的情况. 我们记得在这种情况下, ℓ(y,θ⊤φ(x))=(y−θ⊤φ(x))2 . 由此我们得到:
R(f)−R(f)=θ⊤(n1i=1∑nφ(xi)φ(xi)⊤−E[φ(x)φ(x)⊤])θ−2θ⊤(n1i=1∑nyiφ(xi)−E[yφ(x)])+(n1i=1∑nyi2−E[y2])因此, 上确界可以用封闭形式给出上界:
∥θ∥2≤Dsup∣R(f)−R(f)∣≤D2n1i=1∑nφ(xi)φ(xi)⊤−E[φ(x)φ(x)⊤]op+2Dn1i=1∑nyiφ(xi)−E[yφ(x)]2+n1i=1∑nyi2−E[y2]其中∥M∥op是矩阵M的算子范数, 定义为∥M∥op=sup∥u∥2=1∥Mu∥2 .
因此, 为了得到一个一致的上界, 我们只需要对这三个非一致的偏差期望进行上界界定, 它们的阶数为O(1/n), 这样我们就能得到一个整体的一致偏差上界. 对于这种特殊情况, 得到O(1/n)的收敛速度是可能的, 但对于除二次损失之外的其他类型的损失函数, 要得到这样的收敛速度通常是不可能的.
练习: 给出上述sup∥θ∥2≤D∣R(f)−R(f)∣ 的显式上界, 并将其与4.5节中拉德马赫复杂度的应用进行比较. 可以使用1.2.3节中关于矩阵平均值的集中不等式.
证明: 计算sup∥θ∥2≤D∣R(f)−R(f)∣的显式上界 已知
∥θ∥2≤Dsup∣R(f)−R(f)∣≤D2n1i=1∑nφ(xi)φ(xi)⊤−E[φ(x)φ(x)⊤]op+2Dn1i=1∑nyiφ(xi)−E[yφ(x)]2+n1i=1∑nyi2−E[y2]第一项: 设Mn=n1∑i=1nφ(xi)φ(xi)⊤, M0=E[φ(x)φ(x)⊤]. 根据矩阵的集中不等式, 对于独立同分布的矩阵随机变量φ(xi)φ(xi)⊤, 在一定条件下(如φ(x)的各元素有界等), 存在常数C1使得
P(∥Mn−M0∥op≥nC1log(1/δ))≤δ那么在概率1−δ下, D2n1∑i=1nφ(xi)φ(xi)⊤−E[φ(x)φ(x)⊤]op≤D2nC1log(1/δ).
第二项: 设vn=n1∑i=1nyiφ(xi), v0=E[yφ(x)]. 对于向量形式的随机变量, 利用类似的集中不等式(如针对独立同分布的向量随机变量的霍夫丁型不等式), 假设yi和φ(xi)满足一定的有界条件, 存在常数C2使得
P(∥vn−v0∥2≥nC2log(1/δ))≤δ那么在概率1−δ下,
2Dn1i=1∑nyiφ(xi)−E[yφ(x)]2≤2DnC2log(1/δ).第三项: 设sn=n1∑i=1nyi2, s0=E[y2]. 对于标量随机变量yi2, 根据标量的集中不等式(如霍夫丁不等式), 存在常数C3使得
P(∣sn−s0∣≥nC3log(1/δ))≤δ那么在概率1−δ下,
n1i=1∑nyi2−E[y2]≤nC3log(1/δ).综合以上三项, 在概率1−δ下,
∥θ∥2≤Dsup∣R(f)−R(f)∣≤nlog(1/δ)(D2C1+2DC2+C3).有限数量的模型#
我们假设损失函数的取值范围在−ℓ∞ 和ℓ∞ 之间. 利用估计误差的上界2supf∈F∣R(f)−R(f)∣ , 以及并集界:
P(R(f^)−f∈FinfR(f)≥t)≤P(2f∈Fsup∣R(f)−R(f)∣≥t)≤f∈F∑P(2∣R(f)−R(f)∣≥t)对于固定的f∈F , 我们有R(f)=n1∑i=1nℓ(yi,f(yi)) , 并且我们可以应用霍夫丁(Hoeffding)不等式来对每个P(2∣R(f)−R(f)∣≥t) 进行界定, 从而得到:
P(R(f^)−f∈FinfR(f)≥t)≤f∈F∑2exp(−nt2/2ℓ∞2)=2∣F∣exp(−nt2/2ℓ∞2)因此, 令δ=2∣F∣exp(−nt2/2ℓ∞2) , 并求出对应的t , 在概率大于1−δ 的情况下, 我们得到:
R(f^)−R(f)≤n2ℓ∞logδ2∣F∣=n2ℓ∞log(∣F∣)+logδ2≤2ℓ∞nlog(∣F∣)+n2ℓ∞logδ2习题: 从期望的角度来看, 我们可以得到(利用第2章1.2.4节中关于随机变量最大值的证明, 这是适用的, 因为有界随机变量是次高斯的):
E[R(f^)−f∈FinfR(f)]≤2E[f∈Fsup∣R(f)−R(f)∣]≤ℓ∞n2log(∣F∣)
证明: 已知损失函数有界, 即−ℓ∞≤ℓ(y,f(x))≤ℓ∞ , 且R(f)=n1∑i=1nℓ(yi,f(xi)), R(f)=E[ℓ(y,f(x))].
由前面的内容可知
P(R(f^)−f∈FinfR(f)≥t)≤f∈F∑2exp(−nt2/2ℓ∞2).因为有界随机变量是次高斯的, 设Zf=R(f)−R(f), 由于损失函数有界, Zf是次高斯随机变量. 对于一组次高斯随机变量{Zf:f∈F} , 根据次高斯随机变量最大值的性质:
首先, 我们知道对于单个次高斯随机变量Z , 其尾部概率满足P(∣Z∣≥t)≤2exp(−2σ2t2)(σ2是与次高斯随机变量相关的参数, 这里对于Zf , 由损失函数有界可知σ与ℓ∞有关).
对于supf∈F∣Zf∣ , 我们可以通过对P(supf∈F∣Zf∣≥t)进行分析. 由前面得到的
P(R(f^)−f∈FinfR(f)≥t)≤f∈F∑2exp(−nt2/2ℓ∞2),可以类似地得到
P(f∈Fsup∣R(f)−R(f)∣≥t)≤f∈F∑2exp(−nt2/2ℓ∞2)=2∣F∣exp(−nt2/2ℓ∞2).令δ=2∣F∣exp(−nt2/2ℓ∞2) , 解出t可得
t=ℓ∞n2log(∣F∣/δ).然后根据次高斯随机变量的期望与尾部概率的关系(对于次高斯随机变量Z , E[∣Z∣]与supt>0tlog(1/P(∣Z∣≥t))相关), 对于supf∈F∣R(f)−R(f)∣ , 有:
E[f∈Fsup∣R(f)−R(f)∣]≤t>0suptlogP(supf∈F∣R(f)−R(f)∣≥t)1≤δ>0supℓ∞n2log(∣F∣/δ)log(δ2∣F∣)当取合适的δ(例如δ=1 , 因为我们关注的是一个上界)时, E[supf∈F∣R(f)−R(f)∣]≤ℓ∞n2log(∣F∣).
因为R(f^)−f∈FinfR(f)≤2supf∈F∣R(f)−R(f)∣ , 根据期望的性质E[X]≤E[Y](若X≤Y), 则有:
E[R(f^)−f∈FinfR(f)]≤2E[f∈Fsup∣R(f)−R(f)∣]≤ℓ∞n2log(∣F∣)从而完成了习题证明.
拉德马赫复杂度#
我们考虑n个独立同分布的随机变量z1,…,zn∈Z, 以及一个从Z到R的函数类H. 在我们的研究背景中, 函数空间与学习问题的关系为:H={(x,y)↦ℓ(y,f(x)),f∈F}.
本节的目标是为supf∈FR(f)−R(f)提供一个上界, 而它恰好等于
h∈HsupE[h(z)]−n1i=1∑nh(zi)其中E[h(z)]表示关于一个与所有zi具有相同分布的变量的期望.
我们用D={z1,…,zn}表示数据. 我们定义从Z到R的函数类H的拉德马赫复杂度为:
Rn(H)=Eε,D(h∈Hsupn1i=1∑nεih(zi))其中ε∈Rn是一个由独立的拉德马赫随机变量组成的向量(即取值为−1或1的概率相等), 并且它也与D相互独立. 这是一个仅取决于n和H的确定性量.
换句话说, 拉德马赫复杂度等于函数h在观测值zi处的取值与随机标签之间的最大点积的期望. 它是对函数类H的“容量”的一种度量.
对称化#
通过一种通用的“对称化”性质将其与均匀偏差联系起来, 该性质表明拉德马赫复杂度能直接控制期望均匀偏差.
其中ε∈Rn是由独立的拉德马赫随机变量组成的向量(这些随机变量以相等的概率取值−1或1), 并且它也与D相互独立. 拉德马赫复杂度是一个仅取决于n和H的确定性量.
换句话说, 拉德马赫复杂度等于函数h在观测值zi处的取值与随机标签之间的最大点积的期望. 它是对函数类H的“容量”的一种度量. 我们稍后会看到, 在许多有趣的情形中它是可以计算出来的, 并且能得出有趣且强有力的上界.
首先, 我们通过一种通用的“对称化”性质将其与均匀偏差联系起来, 该性质表明拉德马赫复杂度能直接控制期望均匀偏差.
命题: 在
Rn(H)=Eε,D(h∈Hsupn1i=1∑nεih(zi))所定义的函数类H的拉德马赫复杂度, 我们有:
E[h∈Hsup(n1i=1∑nh(zi)−E[h(z)])]≤2Rn(H), E[h∈Hsup(E[h(z)]−n1i=1∑nh(zi))]≤2Rn(H).
证明: 设D′={z1′,…,zn′}是数据D={z1,…,zn}的一个独立副本. 设(εi)i∈{1,…,n} 是独立同分布的拉德马赫随机变量, 它们也与D和D′相互独立. 利用对于所有i∈{1,…,n} , E[h(zi′)∣D]=E[h(z)]这一性质, 我们有:
E[h∈Hsup(E[h(z)]−n1i=1∑nh(zi))]=E[h∈Hsup(n1i=1∑nE[h(zi′)∣D]−n1i=1∑nh(zi))]=E[h∈Hsup(n1i=1∑nE[h(zi′)−h(zi)∣D])]这是根据独立副本D′的定义得到的. 然后
E[h∈Hsup(E[h(z)]−n1i=1∑nh(zi))]≤E[E(h∈Hsup(n1i=1∑n∣h(zi′)−h(zi)∣)D)]利用上确界的期望小于期望的上确界这一性质=E[h∈Hsup(n1i=1∑n∣h(zi′)−h(zi)∣)] 根据期望的塔式法则=E[h∈Hsup(n1i=1∑nεi(h(zi′)−h(zi)))] 根据 εi 的对称性法则≤E[h∈Hsup(n1i=1∑nεih(zi′))]+E[h∈Hsup(n1i=1∑nεi(−h(zi)))]=2E[h∈Hsup(n1i=1∑nεih(zi))]=2Rn(H)对于E[suph∈H(n1∑i=1nh(zi)−E[h(z)])]≤2Rn(H) 的推理本质上是相同的.
若H 是有限的, 且对于所有h∈H 以及几乎所有的z , 都有∣h(z)∣≤ℓ∞ , 计算Rn(H) 的上界
证明: (1)计算 Rn(H) 的上界 已知 H 是有限的, 设 H={h1,h2,…,hm}(m 为有限正整数), 且对于所有 h∈H 以及几乎所有的 z , 都有 ∣h(z)∣≤ℓ∞ .
根据拉德马赫复杂度的定义 Rn(H)=Eε,D(suph∈Hn1∑i=1nεih(zi)) , 其中 ε∈Rn 是由独立的拉德马赫随机变量(取值为 −1 或 1 且概率相等)组成的向量, 且与 D={z1,z2,…,zn} 相互独立.
由于 suph∈Hn1∑i=1nεih(zi)≤suph∈Hn1∑i=1n∣εih(zi)∣ , 又因为 ∣εi∣=1 且 ∣h(zi)∣≤ℓ∞ , 所以有:
h∈Hsupn1i=1∑n∣εih(zi)∣≤n1i=1∑nh∈Hsup∣h(zi)∣≤ℓ∞对其求期望可得:
Rn(H)=Eε,D(h∈Hsupn1i=1∑nεih(zi))≤Eε,D[ℓ∞]=ℓ∞进一步, 利用独立随机变量的性质和期望的计算方法, 我们可以更精确地计算.
Rn(H)=Eε[ED(h∈Hsupn1i=1∑nεih(zi))]≤Eε[n2logmℓ∞]=n2logmℓ∞这里利用了次高斯随机变量的性质以及有限个随机变量最大值的相关结论. 因为 n1∑i=1nεih(zi) 可以看作是次高斯随机变量的组合, 对于有限个次高斯随机变量的上确界, 有类似的集中不等式可以使用.
利普希茨连续损失函数#
在我们的研究背景下, 有一个特别引人关注的性质, 有时被称为“收缩原理”(其证明源自迈尔(Meir)和张(Zhang)在2003年发表的论文中的引理5, 证明过程较为简单).
收缩原理#
给定任意函数b,ai:Θ→R(不做其他假设)以及φi:R→R 为任意1 - 利普希茨函数, 其中i=1,…,n . 对于ε∈Rn 这个由独立拉德马赫随机变量组成的向量, 我们有:
Eε[θ∈Θsupb(θ)+i=1∑nεiφi(ai(θ))]≤Eε[θ∈Θsupb(θ)+i=1∑nεiai(θ)].
证明: 我们采用对n进行归纳的方法来证明. n=0 的情况是显然成立的, 接下来我们说明如何从n≥0 推导到n+1 的情况. 因此, 我们考虑Eε1,…,εn+1[supθ∈Θb(θ)+∑i=1n+1εiφi(ai(θ))] .
通过考虑εn+1 两种取值可能性(每种概率为1/2), 显式地计算关于εn+1 的期望:
==Eε1,…,εn+1[θ∈Θsupb(θ)+i=1∑n+1εiφi(ai(θ))]21Eε1,…,εn[θ∈Θsupb(θ)+i=1∑nεiφi(ai(θ))+φn+1(an+1(θ))]+21Eε1,…,εn[θ∈Θsupb(θ)+i=1∑nεiφi(ai(θ))−φn+1(an+1(θ))]Eε1,…,εn[θ,θ′∈Θsup2b(θ)+b(θ′)+i=1∑nεi2φi(ai(θ))+φi(ai(θ′))+2φn+1(an+1(θ))−φn+1(an+1(θ′))]这是通过将各项合并得到的. 通过对(θ,θ′) 和(θ′,θ) 取上确界, 我们得到:
≤Eε1,…,εn[θ,θ′∈Θsup2b(θ)+b(θ′)+i=1∑nεi2φi(ai(θ))+φi(ai(θ′))+2∣φn+1(an+1(θ))−φn+1(an+1(θ′))∣]Eε1,…,εn[θ,θ′∈Θsup2b(θ)+b(θ′)+i=1∑nεi2φi(ai(θ))+φi(ai(θ′))+2∣an+1(θ)−an+1(θ′)∣]这里使用了利普希茨连续性. 我们可以在φn+1 为恒等函数的情况下重复完全相同的等式推导过程, 从而得出上述最后一个表达式等于:
≤Eε1,…,εnEεn+1[θ∈Θsupb(θ)+εn+1an+1(θ)+i=1∑nεiφi(ai(θ))]Eε1,…,εn,εn+1[θ∈Θsupb(θ)+εn+1an+1(θ)+i=1∑nεiai(θ)]这里使用了归纳假设, 最终得到了我们想要的结果.
我们可以将上述收缩原理应用于监督学习场景. 在该场景中, 对于所有的i , 几乎必然有ui↦ℓ(yi,ui) 是G− 利普希茨连续的(这在回归问题中是可行的, 或者如4.1节所述, 在二元分类中使用凸替代函数时也是可行的), 由此可得:
根据收缩原理, Eε(supf∈Fn1∑i=1nεiℓ(yi,f(xi))∣D)≤G⋅Eε(supf∈Fn1∑i=1nεif(xi)∣D),
这进而得出 Rn(H)≤G⋅Rn(F) .
因此, 预测函数类的拉德马赫复杂度控制着经验风险的均匀偏差. 现在我们来看一些简单的例子.
球约束线性预测#
现在我们假设F={fθ(x)=θ⊤φ(x),Ω(θ)≤D}, 其中Ω是Rd上的一个范数. 我们用Φ∈Rn×d表示设计矩阵. 于是有:
Rn(F)=E[Ω(θ)≤Dsup(n1i=1∑nεiθ⊤φ(xi))]=E[Ω(θ)≤Dsupn1ε⊤Φθ]=nDE[Ω∗(Φ⊤ε)]其中Ω∗(u)=supΩ(θ)≤1u⊤θ是Ω的对偶范数. 例如, 当Ω是ℓp范数, p∈[1,+∞]时, 那么Ω∗是ℓq范数, 其中q满足p1+q1=1, 比如, ∥⋅∥2∗=∥⋅∥2, ∥⋅∥1∗=∥⋅∥∞, 且∥⋅∥∞∗=∥⋅∥1.
因此, 计算拉德马赫复杂度等价于计算范数的期望. 当Ω=∥⋅∥2时, 我们可得:
Rn(F)=nDE[∥Φ⊤ε∥2]≤nDE[∥Φ⊤ε∥22](根据詹森不等式)=nDE[tr[Φ⊤εε⊤Φ]]=nDE[tr[Φ⊤Φ]](利用 E[εε⊤]=I)=nDi=1∑nE[(Φ⊤Φ)ii]=nDi=1∑nE[∥φ(xi)∥22]=nDE[∥φ(x)∥22](4.10)这样我们就得到了一个与维度无关的拉德马赫复杂度.
习题: 求当Ω=∥⋅∥1时拉德马赫复杂度的上界.
证明: 已知Rn(F)=nDE[Ω∗(Φ⊤ε)], 其中Ω∗(u)=supΩ(θ)≤1u⊤θ是Ω的对偶范数.
对于ℓ1范数, 其对偶范数ℓ∞范数, 即当Ω=∥⋅∥1时, Ω∗=∥⋅∥∞. ℓ∞范数的定义为∥x∥∞=maxi∣xi∣, 其中x=(x1,x2,⋯,xn)
当Ω=∥⋅∥1时, 根据上述公式可得:
Rn(F)=nDE[∥Φ⊤ε∥∞]设Φ⊤=(φ1,φ2,⋯,φd), 其中φi是Φ⊤的列向量, ε=(ε1,ε2,⋯,εn)⊤, 则Φ⊤ε=∑i=1nεiφi. ∥Φ⊤ε∥∞=maxj=1d∣∑i=1nεiφij∣, 其中φij是φi的第j个元素.
根据绝对值不等式∣∑i=1naibi∣≤∑i=1n∣ai∣∣bi∣, 可得: ∣∑i=1nεiφij∣≤∑i=1n∣εi∣∣φij∣=∑i=1n∣φij∣(因为∣εi∣=1) 所以
∥Φ⊤ε∥∞≤j=1maxdi=1∑n∣φij∣.对其求期望可得:
E[∥Φ⊤ε∥∞]≤E[j=1maxdi=1∑n∣φij∣]由于E[maxj=1d∑i=1n∣φij∣]≤maxj=1d∑i=1nE[∣φij∣], 则:
Rn(F)=nDE[∥Φ⊤ε∥∞]≤nDj=1maxdi=1∑nE[∣φij∣]综上, 当Ω=∥⋅∥1时, 拉德马赫复杂度Rn(F)的上界为nDmaxj=1d∑i=1nE[∣φij∣] . 这个上界表达式反映了拉德马赫复杂度与设计矩阵Φ的元素期望以及约束参数D之间的关系.
与Ω=∥⋅∥2时得到的与维度无关的结果不同, 此上界形式与矩阵的维度d和n都有一定关联, 在分析模型复杂度和泛化性能时需要综合考虑这些因素.
线性预测#
这里不假设损失函数是凸函数.
估计误差: 假设损失函数是G− 利普希茨连续的, 线性预测函数满足F={fθ(x)=θ⊤φ(x),∥θ∥2≤D} , 其中E[∥φ(x)∥22]≤R2 . 设f^=fθ^∈F 是经验风险的极小值点, 那么: E[R(fθ^)]≤∥θ∥2≤DinfR(fθ)+n2GRD
证明: 如果我们假设在Rd 上存在R(fθ) 的极小值点θ∗ , 那么近似误差的上界为:
∥θ∥2≤DinfR(fθ)−R(fθ∗)≤G∥θ∥2≤DinfE[∣fθ(x)−fθ∗(x)∣]=G∥θ∥2≤DinfE[∣φ(x)⊤(θ−θ∗)∣]≤G∥θ∥2≤Dinf∥θ−θ∗∥2E[∥φ(x)∥2]≤GR∥θ∥2≤Dinf∥θ−θ∗∥2由此可得:
E[R(fθ^)]−R(fθ∗)≤GR∥θ∥2≤Dinf∥θ−θ∗∥2+n2GRD=GR(∥θ∗∥2−D)++n2GRD可以看到, 当D=∥θ∗∥2 时, 我们得到上界n2GR∥θ∗∥2 , 但在实际应用中, ∥θ∗∥2 的值通常是未知的. 如果D 取值过大, 估计误差会增大(导致过拟合);而如果D 取值过小, 近似误差会迅速增大(当n 趋于无穷时, 该误差值不会趋于0), 从而导致欠拟合.
考虑一个学习问题, 其损失函数关于第二个变量是1− 利普希茨连续的, 函数类为fθ(x)=θ⊤φ(x) , 其中∥θ∥1≤D , 并且φ:X→Rd , 几乎必然有∥φ(x)∥∞<R . 给定期望风险R(fθ) 和经验风险R(fθ) , 计算 E[sup∥θ∥1≤1∣R(fθ)−R(fθ)∣] 的上界.
证明: 已知损失函数关于第二个变量是1− 利普希茨连续的, 即G=1. 函数类为fθ(x)=θ⊤φ(x), ∥θ∥1≤D, ∥φ(x)∥∞几乎必然小于R.
由Rn(F)=nDE[Ω∗(Φ⊤ε)](其中Ω是关于θ的范数, Ω∗是其对偶范数), 因为这里Ω=∥⋅∥1, 其对偶范数Ω∗=∥⋅∥∞.
设Φ⊤的列向量为φi, Φ⊤ε=∑i=1nεiφi, ∥Φ⊤ε∥∞=maxj∣∑i=1nεiφij∣(φij是φi的第j个元素).
根据绝对值不等式∣∑i=1nεiφij∣≤∑i=1n∣εi∣∣φij∣=∑i=1n∣φij∣(∣εi∣=1), 且∥φ(x)∥∞<R, 即∣φij∣<R.
所以∥Φ⊤ε∥∞≤maxj∑i=1n∣φij∣≤nR, 对其求期望可得E[∥Φ⊤ε∥∞]≤nR.
则Rn(F)=nDE[∥Φ⊤ε∥∞]≤DR.
根据前面的结论, 结合收缩原理相关内容, 有E[supθ∣R(fθ)−R(fθ)∣]≤2Rn(F)(此处的关系可由前面章节关于对称化以及拉德马赫复杂度控制经验风险均匀偏差的内容推导得出).
把Rn(F)≤DR代入可得:E[sup∥θ∥1≤1∣R(fθ)−R(fθ)∣]≤2DR.
综上, E[sup∥θ∥1≤1∣R(fθ)−R(fθ)∣]的上界为2DR.
从约束估计到正则化估计#
在实际应用中, 相较于施加约束, 使用范数Ω(θ)=∥θ∥2 进行惩罚更为可取(主要原因是这样更容易找到超参数, 并且优化过程也更简便).
这里只考虑ℓ2 范数.
我们现在用θ^λ 表示
R(fθ)+2λ∥θ∥22的极小值点.
如果损失函数始终为正, 那么
2λ∥θ^λ∥22≤R(fθ^λ)+2λ∥θ^λ∥22≤R(f0).由此可得∥θ^λ∥2=O(1/λ) . 因此, 在上述上界中令D=O(1/λ) , 会得到O(1/n) 量级的偏差, 这并非最优结果.
正则化目标的快速收敛速率#
假设损失函数是G− 利普希茨连续的凸函数, 线性预测函数满足F={fθ(x)=θ⊤φ(x),∥θ∥2≤D} , 其中E[∥φ(x)∥22]≤R2 . 设θ^λ∈Rd 是
R(fθ)+2λ∥θ∥22中正则化经验风险的极小值点, 那么:
E[R(fθ^λ)]≤θ∈Rdinf{R(fθ)+2λ∥θ∥22}+λn32G2R2
注意, 我们得到了一个O(R2/(λn)) 量级的“快速收敛速率”, 它对n 的依赖关系更好, 但依赖于λ , 而在实际应用中λ 可能非常小. λ∝n∥θ∗∥2GR , 这会导致较慢的收敛速率:
E[R(fθ^λ)]≤R(fθ∗)+O(nGR∥θ∗∥2)扩展与改进:在处理二元分类问题, 或者更一般的离散输出问题时, 可以进行进一步分析. 对于所使用的凸替代函数和原始损失函数, 可能会有不同的收敛速率(例如, 在进行阈值处理后, 有时可以得到指数收敛速率). 这通常是在所谓的“低噪声”条件下进行研究的.