CiMorns
5952 words
30 minutes
「机器学习」基础内容
T1T2T2T2
机器学习要素机器学习定义机器学习组成要素
输入空间与输入特征
输出空间与标签
数据集
目标函数
假设集和假设函数
学习算法
三大学习
监督学习
无监督学习
强化学习
参数估计矩估计最大似然估计贝叶斯估计
决策理论损失(预测差异标准)
01损失
平方损失
绝对损失
交叉熵损失
Hinge损失
风险(性能评判标准)
期望风险
经验风险(训练误差)
超额风险
固定设计风险
随机设计风险
贝叶斯风险
先验估计
后验估计
贝叶斯预测器(最佳预测函数)
推导
常用的贝叶斯预测器
统计学习理论性能度量
期望误差
没有免费的午餐定理
评估方法交叉验证

机器学习要素#

机器学习定义#

机器学习的目标是:通过观测数据(x,y)(x, y), 让算法从假设集HH中自动寻找一个假设函数g(x)g(x), 使其尽可能接近真实目标函数f(x)f(x).

  • 关键对比:传统编程是“人为定义规则”(如手动设计电影评分公式), 而机器学习是“逆向工程”——从数据(观众评分)反推规则(哪些因素影响评分).

  • 示例:预测电影评分时, 机器学习不依赖“导演名气+演员阵容”等人为设定, 而是通过历史评分数据, 让算法自动发现观众的潜在偏好(如偏爱科幻片或剧情片).


机器学习组成要素#

(X,Y,f,H,A)(\mathscr{X},\mathscr{Y},f,H,A)

250317-1

输入空间与输入特征#

输入空间X\mathscr{X}与输入特征xx

  • 定义:xXx \in \mathscr{X}, X\mathscr{X} 是所有可能输入的特征空间

  • 描述:输入特征向量由算法处理的原始属性构成, 决定模型的感知范围

  • 例子:

    • 电影推荐:X=R2\mathscr{X} = \mathbb{R}^2(二维空间), x=[类型编码,时长(分钟)]x = [\text{类型编码}, \text{时长(分钟)}]

    • 具体输入:x=[1,120]x = [1, 120](1表示科幻片, 120分钟)

输出空间与标签#

输出空间Y\mathscr{Y}与标签yy

  • 定义:yYy \in \mathscr{Y}, Y\mathscr{Y} 是目标变量的取值范围

  • 描述:监督学习的目标值, 分为分类(离散)或回归(连续)

  • 例子:

    • 回归任务:Y=[1,5]\mathscr{Y} = [1, 5], y=4.5y = 4.5(对应x=[1,120]x=[1, 120]的电影评分)

    • 分类任务:Y={1,+1}\mathscr{Y} = \{-1, +1\}, y=+1y = +1(PLA算法:“推荐/不推荐”的二分类)

数据集#

数据集 D={(xi,yi)}i=1nD = \{(x_i, y_i)\}_{i=1}^n

  • 定义:从真实分布 P(x,y)P(x, y) 独立同分布采样的训练集

  • 例子:

    • 生成方式:DDff 生成并添加噪声(如电影评分受“观众情绪”噪声影响)

    • 规模影响:n=10n=10 时PLA可能过拟合, n=1000n=1000 时更接近ff

目标函数#

目标函数f:XYf: \mathscr{X} \to \mathscr{Y}(未知)

  • 定义:数据生成的真实映射关系, 无法显式获取

  • 例子:

    人工生成数据f(x)=sin(2πx)+噪声f(x) = \text{sin}(2\pi x) + \text{噪声}, 算法通过多项式拟合尝试逼近

假设集和假设函数#

假设集H\mathscr{H}和假设函数g:XYg: \mathscr{X} \to \mathscr{Y}(已知)

用于近似ff

  • 数学形式:

    • 线性分类:g(x)=sign(wx+b)g(x) = \text{sign}(w \cdot x + b)(PLA算法)

    • 线性回归:g(x)=wx+bg(x) = w \cdot x + bw=(XTX)1XTyw = (X^TX)^{-1}X^Ty

  • 例子:

    g(x)=0.8x10.01x2+2g(x) = 0.8x_1 - 0.01x_2 + 2 预测电影评分, x1x_1(类型)权重为正, x2x_2(时长)权重为负, 对应“科幻片加分、长电影减分”的归纳

  • 感知机

For input x=(x1,,xd)x = (x_1, \cdots, x_d) ‘attributes of a customer’

这个集合可以包括:收入, 居住年限等等

Approve credit if i=1dwixi>threshold,Deny credit if i=1dwixi<threshold.\begin{gather*} \text{Approve credit if } \sum_{i=1}^{d} w_i x_i > \text{threshold},\\ \text{Deny credit if } \sum_{i=1}^{d} w_i x_i < \text{threshold}. \end{gather*}

This linear formula hHh \in \mathcal{H} can be written as

h(x)=sign((i=1dwixi)threshold)\begin{gather*} h(\mathbf{x}) = \text{sign}\left( \left( \sum_{i=1}^{d} w_i x_i \right) - \text{threshold} \right) \end{gather*}

Introduce an artificial coordinate x0=1x_0 = 1:

h(x)=sign(i=0dwixi)\begin{gather*} h(\mathbf{x}) = \text{sign}\left( \sum_{i=0}^{d} w_i x_i \right) \end{gather*}

In vector form, the perceptron implements

h(x)=sign(wx)\begin{gather*} h(\mathbf{x}) = \text{sign}(\mathbf{w}^{\top}\mathbf{x}) \end{gather*}

学习算法#

A\mathscr{A}:从DDgg的优化过程

  • PLA算法:

    • 步骤:初始化ww, 遍历DD, 误分类时更新ww+yixiw \leftarrow w + y_i x_i

    • 终止条件:Ein(g)=0E_{\text{in}}(g) = 0

  • 最小二乘法:

    • 目标:minwi=1n(yiwxi)2\min_w \sum_{i=1}^n (y_i - w \cdot x_i)^2

    • 解:w=(XTX)1XTyw = (X^TX)^{-1}X^Ty

A\mathscr{A}H\mathscr{H}放在一起叫做学习模型.


三大学习#

监督学习:有人教“这是对的”(如父母教孩子“红灯停”).

无监督学习:自己发现“哪些相似”(如孩子把玩具按颜色分类).

强化学习:试错后知道“这样做更好”(如孩子学骑车, 摔了知道要平衡).

监督学习#

定义:用带标签的数据(如“垃圾邮件/正常”“房价100万”), 学输入到输出的映射.

核心:从“已知答案”中模仿规律, 目标是预测新数据的标签.

例子:

  • 分类:售货机识别硬币——提前输入“1元硬币=可乐”“5角硬币=退币”, 学会后根据投币面值吐对应商品.

  • 回归:预测奶茶销量——输入天气温度(28℃/32℃)和历史销量(300杯/500杯), 学温度与销量的关系.

无监督学习#

定义:用无标签数据(如用户消费记录、像素点), 自己找内在结构(分组/模式).

核心:在“没有答案”的情况下, 发现数据的隐藏规律(如相似性、特征压缩).

例子:

  • 聚类:售货机分析投币习惯——收集1000次投币数据(时间、金额), 自动分成“早高峰1元组”和“下午茶5元组”.

  • 降维:压缩商品图片——将1000维像素数据降到50维, 保留“饮料瓶形状”“零食包装颜色”等关键特征.

强化学习#

定义:通过试错互动(行动→环境反馈奖惩), 学最大化长期奖励的策略.

核心:在动态环境中“边做边学”, 奖惩是唯一指导(无直接标签).
例子:

  • 机器人补货:售货机缺货时, 机器人尝试不同路径(左/右/中间), 快到货架+5分, 撞人-3分, 最终学会“绕开人流高峰的最短路径”.

  • 游戏AI:自动玩推箱子, 推到目标+10分, 超时-5分, 通过上万次尝试, 找到“先卡位再推”的最优策略.


参数估计#

矩估计#

设总体 XXkk 阶原点矩为 μk=E(Xk)\mu_k = E(X^k), 样本 X1,X2,,XnX_1, X_2, \cdots, X_nkk 阶原点矩为 Ak=1ni=1nXikA_k=\frac{1}{n}\sum_{i = 1}^{n}X_i^k.

  • 用样本矩估计总体矩:令总体的 kk 阶原点矩等于样本的 kk 阶原点矩, 即 μk=Ak\mu_k = A_k .

  • 求解参数估计值:假设总体分布中有 mm 个未知参数 θ1,θ2,,θm\theta_1, \theta_2, \cdots, \theta_m, 可以列出 mm 个方程 μkj=Akj\mu_{k_j}=A_{k_j}j=1,2,,mj = 1, 2, \cdots, m), 然后联立求解这 mm 个方程, 得到的 θ1,θ2,,θm\theta_1, \theta_2, \cdots, \theta_m 的值就是矩估计值 θ^1_ME,θ^2_ME,,θ^m_ME\hat{\theta}_{1\_ME}, \hat{\theta}_{2\_ME}, \cdots, \hat{\theta}_{m\_ME} .

  • 如总体均值 μ=E(X)\mu = E(X), 用样本均值 Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum_{i = 1}^{n}X_i 来估计;总体方差 σ2=E((XE(X))2)=E(X2)[E(X)]2\sigma^2 = E((X - E(X))^2)=E(X^2)-[E(X)]^2, 用 S2=1ni=1n(XiXˉ)2S^2=\frac{1}{n}\sum_{i = 1}^{n}(X_i - \bar{X})^2 (或 Sn2=1n1i=1n(XiXˉ)2S_n^2=\frac{1}{n - 1}\sum_{i = 1}^{n}(X_i - \bar{X})^2 , 无偏估计)来估计.

最大似然估计#

假设样本 X1,X2,,XnX_1, X_2, \cdots, X_n 是独立同分布的, 其概率密度函数(或概率质量函数)为 f(x;θ)f(x;\theta), 其中 θ\theta 是待估计的参数向量.

  • 似然函数: L(θ)=i=1nf(Xi;θ)L(\theta)=\prod_{i = 1}^{n}f(X_i;\theta)

  • 对数似然函数:为了计算方便, 通常对似然函数取对数得到对数似然函数 lnL(θ)=i=1nlnf(Xi;θ)\ln L(\theta)=\sum_{i = 1}^{n}\ln f(X_i;\theta)

  • 求解最大似然估计值:通过对对数似然函数求关于 θ\theta 的导数(若 θ\theta 是多维向量, 则求偏导数), 并令导数为 0, 即 lnL(θ)θ=0\frac{\partial \ln L(\theta)}{\partial \theta}=0 求解上述方程, 得到的 θ\theta 值就是最大似然估计值 θ^MLE\hat{\theta}_{MLE} .

贝叶斯估计#

θ\theta 是待估计的参数, XX 是观测数据.

  • 贝叶斯定理: P(θX)=P(Xθ)P(θ)P(X)P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}

  • P(θX)P(\theta|X) 是后验概率, 表示在观测到数据 XX 的条件下, 参数 θ\theta 的概率;

  • P(Xθ)P(X|\theta) 是似然函数, 表示在参数为 θ\theta 的条件下, 观测到数据 XX 的概率;

  • P(θ)P(\theta) 是先验概率, 表示在没有观测到数据 XX 之前, 对参数 θ\theta 的概率分布的认识;

  • P(X)P(X) 是证据因子, 是一个与 θ\theta 无关的归一化常数, P(X)=P(Xθ)P(θ)dθP(X)=\int P(X|\theta)P(\theta)d\theta (对于连续型参数)或 P(X)=θP(Xθ)P(θ)P(X)=\sum_{\theta} P(X|\theta)P(\theta) (对于离散型参数).

  • 贝叶斯估计值:常见的贝叶斯估计值可以通过后验概率的期望来计算, 即

θ^BE=θP(θX)dθ    (对于连续型参数)\hat{\theta}_{BE}=\int \theta P(\theta|X)d\theta~~~~\text{(对于连续型参数)}

对于离散型参数, 则为 θ^BE=θθP(θX)\hat{\theta}_{BE}=\sum_{\theta} \theta P(\theta|X) . 此外, 也可以取后验概率的最大值点(即最大后验估计, MAP)作为估计值 .


决策理论#

掌握数据的潜在概率分布

损失(预测差异标准)#

01损失#

  • 定义:(y,z)=1yz\ell(y, z) = 1_{y\neq z} , 即当预测值 zz 与真实值 yy 相等时(无错误), 损失为 00 ;当预测值 zz 与真实值 yy 不相等时(有错误), 损失为 11 .
  • 适用场景:主要用于分类问题.

平方损失#

  • 定义:MSE=1ni=1n(yiy^i)2MSE = \frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2, 其中yiy_i是真实值, y^i\hat{y}_i是预测值, nn是样本数量.
  • 适用场景:常用于回归问题, 能直观反映预测值与真实值的平均偏离程度, 对较大误差惩罚较重.

绝对损失#

  • 定义:MAE=1ni=1nyiy^iMAE = \frac{1}{n}\sum_{i = 1}^{n}|y_i - \hat{y}_i|.
  • 适用场景:也用于回归问题, 对异常值相对不敏感, 能更稳健地反映预测值与真实值的平均误差

交叉熵损失#

  • 定义:对于二分类问题, L=[ylogy^+(1y)log(1y^)]L = -[y\log\hat{y}+(1 - y)\log(1 - \hat{y})];对于多分类问题, L=i=1nyilogy^iL = -\sum_{i = 1}^{n}y_i\log\hat{y}_i, 其中yy是真实标签, y^\hat{y}是预测的概率分布.
  • 适用场景:主要用于分类问题, 尤其是在处理概率输出的模型如逻辑回归、神经网络等中广泛应用, 能很好地衡量两个概率分布之间的差异.

Hinge损失#

  • 定义:L=max(0,1yy^)L = \max(0, 1 - y\hat{y}), 常用于支持向量机(SVM)中.
  • 适用场景:适用于二分类问题, 它鼓励分类器找到一个能将不同类别数据很好分隔开的决策边界, 使得正确分类的样本距离边界有一定的 margin.

风险(性能评判标准)#

期望风险#

给定一个预测函数f:XYf:\mathcal{X} \to \mathcal{Y}、一个损失函数:Y×YR\ell:\mathcal{Y} \times \mathcal{Y} \to \mathbb{R}以及一个联合分布p(x,y)p(x, y), 预测函数ff的期望风险定义为:

R(f)=E[(y,f(x))]=X×Y(y,f(x))dp(x,y)\mathcal{R}(f)=\mathbb{E}[\ell(y,f(x))]=\int_{\mathcal{X} \times \mathcal{Y}}\ell(y,f(x))dp(x,y)

作用:期望风险反映了模型在整个数据分布上的平均损失情况, 期望风险越低, 通常意味着模型的泛化能力越强, 更有可能在实际应用中取得较好的预测结果.

经验风险(训练误差)#

给定一个预测函数f:XYf:\mathcal{X} \to \mathcal{Y}、一个损失函数:Y×YR\ell:\mathcal{Y} \times \mathcal{Y} \to \mathbb{R}以及一组训练数据(xi,yi)X×Y(x_i, y_i) \in \mathcal{X} \times \mathcal{Y}, 其中i=1,,ni = 1,\ldots,n, 预测函数ff的经验风险定义为:

R^(f)=1ni=1n(yi,f(xi))\widehat{\mathcal{R}}(f)=\frac{1}{n}\sum_{i = 1}^{n}\ell(y_i,f(x_i))

作用:经验风险衡量模型在训练数据上的拟合程度. 训练时, 常通过最小化经验风险调整参数, 让模型适配训练数据. 但单纯追求最小化易引发过拟合, 模型会过度学习噪声与特殊情况, 忽视数据整体分布, 所以无法完全体现模型的泛化能力 .

超额风险#

设模型ff的期望风险为R(f)R(f), 最优风险(即所有可能模型中最小的期望风险)为RR^*, 那么超额风险ΔR\Delta R定义为:

ΔR=R(f)R\Delta R = R(f) - R^*

作用:超额风险用于评估学习算法所得模型与理论最优模型的差距, 能直观反映模型在泛化能力上的提升空间. 它帮助研究者与工程师判断模型性能, 若超额风险大, 意味着当前模型距最优有较大改进空间, 此时可通过调整模型结构、增加训练数据量或选用更优学习算法等方式优化模型 .

固定设计风险#

输入变量xx是固定的, 不随样本变化而随机变动. 假设我们有固定的输入点x1,x2,,xnx_1, x_2, \ldots, x_n, 以及对应的输出yiy_i. 对于预测函数f:XYf:\mathcal{X} \to \mathcal{Y}和损失函数:Y×YR\ell:\mathcal{Y} \times \mathcal{Y} \to \mathbb{R}, 固定设计风险定义为:

Rfixed(f)=1ni=1nE[(yi,f(xi))]R_{fixed}(f)=\frac{1}{n}\sum_{i = 1}^{n}\mathbb{E}[\ell(y_i,f(x_i))]

这里的期望是针对输出yiy_i的分布(在给定固定输入xix_i的条件下).

作用:固定设计风险可评估模型在此特定条件下对输出的预测准确性. 能展现模型在固定输入环境中的性能, 助力在该场景下筛选合适模型、判断模型对特定输入的适应性. 并且, 分析固定设计风险随模型参数等因素的变化, 可优化模型在此场景下的性能 .

随机设计风险#

输入变量xx是随机的, 服从某个分布p(x)p(x). 对于预测函数f:XYf:\mathcal{X} \to \mathcal{Y}、损失函数:Y×YR\ell:\mathcal{Y} \times \mathcal{Y} \to \mathbb{R}以及联合分布p(x,y)p(x, y), 随机设计风险定义为:

Rrandom(f)=Ex[Eyx[(y,f(x))]]=X(Y(y,f(x))dp(yx))dp(x)R_{random}(f)=\mathbb{E}_{x}\left[\mathbb{E}_{y|x}[\ell(y,f(x))]\right]=\int_{\mathcal{X}}\left(\int_{\mathcal{Y}}\ell(y,f(x))dp(y|x)\right)dp(x)

其中Eyx\mathbb{E}_{y|x}表示在给定xx条件下对yy的期望, Ex\mathbb{E}_{x}表示对xx的期望.

作用:随机设计风险可评估模型对随机输入的泛化能力, 判断其能否适应不同输入并维持良好预测性能. 鉴于真实环境数据多具随机性, 这对模型实际应用意义重大. 它有助于筛选在随机输入下表现最佳的模型, 还能评估模型在复杂多变现实环境中的可靠性与稳定性.

贝叶斯风险#

将未知参数视为随机变量, 强调基于已有信息(先验知识)和观测数据进行推断. 在贝叶斯体系里, 先验知识通过先验分布 P(θ)P(\theta) 体现, 它代表在未接触观测数据之前, 我们对参数 θ\theta 的不确定性认知. 当获取到观测数据 XX 后, 运用贝叶斯定理

P(θX)=P(Xθ)P(θ)P(X)P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}

更新先验分布, 从而得到后验分布 P(θX)P(\theta|X). 其中, P(Xθ)P(X|\theta) 为似然函数, 描述在参数为 θ\theta 时观测到数据 XX 的概率;P(X)P(X) 作为证据因子, 用于对后验分布进行归一化处理. 通过这种方式, 我们能依据不断积累的信息, 持续更新对参数的认知.

先验估计#

先验估计即确定先验分布 P(θ)P(\theta) 的过程. 先验分布的设定可基于过往经验、领域专业知识或合理假设.

例如, 在估计一枚硬币正面朝上的概率 θ\theta 时, 若毫无额外信息, 我们可能采用均匀分布作为先验分布, 意味着在观测数据前, 认为 θ\theta 取任何值的可能性均等.

若已知该硬币是正常硬币, 大概率会将先验分布设定为以 0.5 为中心的较为集中的分布, 反映对硬币正面朝上概率接近 0.5 的先验认知.

后验估计#

后验估计是在依据观测数据 XX 得到后验分布 P(θX)P(\theta|X) 后, 对参数 θ\theta 进行估计的过程. 常见方法主要有两种:

最大后验估计(MAP):选取后验分布中概率最大的参数值作为估计值.

基于后验期望的估计:计算参数 θ\theta 在给定后验分布下的期望值作为估计值. 后验估计融合了先验信息与观测数据, 相较于单纯的先验估计, 能更精准反映参数的真实状况.

在贝叶斯框架下, 结合数据的联合分布 p(x,y)p(x, y), 以及预测函数 f:XYf:\mathcal{X} \to \mathcal{Y} 和损失函数 :Y×YR\ell:\mathcal{Y} \times \mathcal{Y} \to \mathbb{R}, 贝叶斯风险的定义为:

R=Exdpx(x)infzYE((y,z)x=x)\mathcal{R}^*=\mathbb{E}_{x'\sim dp_{x}(x')}\inf_{z \in \mathcal{Y}}\mathbb{E}(\ell(y,z)|x = x')

作用

评估性能:作为评估模型性能的基准, 对比实际模型风险与贝叶斯风险, 基于贝叶斯框架对不确定性的处理, 判断模型性能提升空间.

指导选型:模型选择时, 优先考虑风险接近贝叶斯风险的模型, 因其更趋近理论最优, 泛化能力和预测准确性更佳, 能更好利用先验与数据信息.

助力改进:模型改进时, 若模型风险远高于贝叶斯风险, 可重新审视先验分布设定或调整模型结构, 以优化数据拟合效果, 因为先验分布影响后验推断和预测风险

贝叶斯预测器(最佳预测函数)#

推导#

利用条件期望及全期望公式:

R(f)=E[(y,f(x))]=E[E((y,f(x))x)]R(f)=Exdp(x)[E((y,f(x))x=x)]=X(E((y,f(x))x=x))dp(x)\begin{align*} \mathcal{R}(f)&=\mathbb{E}[\ell(y,f(x))]=\mathbb{E}[\mathbb{E}(\ell(y,f(x))|x)]\\ \mathcal{R}(f)&=\mathbb{E}_{x'\sim dp(x)}[\mathbb{E}(\ell(y,f(x))|x = x')]=\int_{\mathcal{X}}(\mathbb{E}(\ell(y,f(x))|x = x'))dp(x') \end{align*}

给定对于任意xXx' \in \mathcal{X} 的条件分布, 即yx=xy|x = x', 为任意zYz \in \mathcal{Y} 定义条件风险:

r(zx)=E((y,z)x=x)r(z|x')=\mathbb{E}(\ell(y,z)|x = x')

由此可得

R(f)=E(r(f(x)x))=Exdp(x)[r(f(x)x)]=Xr(f(x)x)dp(x)\begin{align*} \mathcal{R}(f)&=\mathbb{E}(r(f(x)|x))=\mathbb{E}_{x'\sim dp(x)}[r(f(x')|x')]=\int_{\mathcal{X}}r(f(x')|x')dp(x') \end{align*}

期望风险在贝叶斯预测器f:XYf^*:\mathcal{X} \to \mathcal{Y} 处达到最小, 对于所有xXx' \in \mathcal{X},

f(x)argminzYE((y,z)x=x)=argminzYr(zx)f^*(x') \in \arg\min_{z \in \mathcal{Y}}\mathbb{E}(\ell(y,z)|x = x') = \arg\min_{z \in \mathcal{Y}}r(z|x')

贝叶斯风险R\mathcal{R}^* 是所有贝叶斯预测器的风险, 且等于:

R=Exdpx(x)infzYE((y,z)x=x)\mathcal{R}^*=\mathbb{E}_{x'\sim dp_{x}(x')}\inf_{z \in \mathcal{Y}}\mathbb{E}(\ell(y,z)|x = x')

常用的贝叶斯预测器#

0 - 1损失:

  • 对于Y={0,1}\mathcal{Y} = \{0, 1\}(y,z)=1yz\ell(y,z) = 1_{y\neq z}, 贝叶斯预测器满足:
f(x)argminz{0,1}P(yzx=x)=argminz{0,1}1P(y=zx=x)=argmaxz{0,1}P(y=zx=x)\begin{align*} f^*(x') &\in \arg\min_{z \in \{0, 1\}}\mathbb{P}(y \neq z|x = x') \\ &= \arg\min_{z \in \{0, 1\}}1 - \mathbb{P}(y = z|x = x') \\ &= \arg\max_{z \in \{0, 1\}}\mathbb{P}(y = z|x = x') \end{align*}
  • η(x)=P(y=1x=x)\eta(x') = \mathbb{P}(y = 1|x = x'), 如果η(x)>1/2\eta(x') > 1/2, f(x)=1f^*(x') = 1;而如果η(x)<1/2\eta(x') < 1/2, f(x)=0f^*(x') = 0. 当η(x)=1/2\eta(x') = 1/2 时, 结果无关紧要.
  • R=E[min{η(x),1η(x)}]\mathcal{R}^*=\mathbb{E}[\min\{\eta(x),1 - \eta(x)\}], 一般来说它严格为正(除非η(x){0,1}\eta(x) \in \{0, 1\} 几乎必然成立, 即yyxx 的确定性函数).
  • k2k \geq 2Y={1,,k}\mathcal{Y} = \{1,\ldots,k\}, 此时f(x)argmaxi{1,,k}P(y=ix=x)f^*(x') \in \arg\max_{i \in \{1,\ldots,k\}}\mathbb{P}(y = i|x = x') .

平方损失:

  • 对于Y=R\mathcal{Y} = \mathbb{R}(y,z)=(yz)2\ell(y,z) = (y - z)^2, 贝叶斯预测器满足:
f(x)argminzRE[(yz)2x=x]=argminzR{E[(yE(yx=x))2x=x]+(zE(yx=x))2}\begin{align*} f^*(x') &\in \arg\min_{z \in \mathbb{R}}\mathbb{E}[(y - z)^2|x = x'] \\ &= \arg\min_{z \in \mathbb{R}}\left\{\mathbb{E}[(y - \mathbb{E}(y|x = x'))^2|x = x']+(z - \mathbb{E}(y|x = x'))^2\right\} \end{align*}
  • 得到条件期望f(x)=E(yx=x)f^*(x') = \mathbb{E}(y|x = x') .

绝对损失:

  • 对于Y=R\mathcal{Y} = \mathbb{R}(y,z)=yz\ell(y,z)=|y - z|, 贝叶斯预测器满足: f(x)argminzRE[yzx=x]f^*(x') \in \arg\min_{z \in \mathbb{R}}\mathbb{E}[|y - z||x = x']
    • 可以证明此时f(x)f^*(x') 是条件中位数, 即f(x)f^*(x') 满足P(yf(x)x=x)12\mathbb{P}(y \leq f^*(x')|x = x') \geq \frac{1}{2}P(yf(x)x=x)12\mathbb{P}(y \geq f^*(x')|x = x') \geq \frac{1}{2} .

Hinge损失:

  • 对于二分类问题Y={1,1}\mathcal{Y}=\{-1,1\}, Hinge损失函数定义为(y,z)=max(0,1yz)\ell(y,z)=\max(0,1 - yz) .
  • 贝叶斯预测器f(x)argminz{1,1}E[max(0,1yz)x=x]f^*(x') \in \arg\min_{z \in \{-1,1\}}\mathbb{E}[\max(0,1 - yz)|x = x'] .
  • p=P(y=1x=x)p=\mathbb{P}(y = 1|x = x'), 1p=P(y=1x=x)1 - p=\mathbb{P}(y=-1|x = x'), 则E[max(0,1yz)x=x]=pmax(0,1z)+(1p)max(0,1+z)\mathbb{E}[\max(0,1 - yz)|x = x']=p\max(0,1 - z)+(1 - p)\max(0,1 + z) .
  • p>12p>\frac{1}{2} 时, f(x)=1f^*(x') = 1;当p<12p<\frac{1}{2} 时, f(x)=1f^*(x')=-1;当p=12p = \frac{1}{2} 时, 选择z=1z = 1z=1z=-1 对风险没有影响 .

通过对不同损失函数下贝叶斯预测器的分析, 我们可以根据具体问题选择合适的损失函数和预测器, 以最小化期望风险.

统计学习理论#

学习理论的目标是为模型在未见数据上的性能提供一定的保障. 假设数据Dn(dp)={(x1,y1),,(xn,yn)}\mathcal{D}_{n}(dp)=\{(x_1, y_1),\ldots,(x_n, y_n)\} 是从分布族P\mathcal{P} 中某个未知分布dpdp 进行独立同分布(i.i.d.)采样得到的观测值.

目标是找到这样的算法A\mathcal{A}A\mathcal{A} 是一个从Dn(dp)\mathcal{D}_{n}(dp)(对于任意nn)到一个从X\mathcal{X}Y\mathcal{Y} 的函数的映射, 风险取决于概率分布dpPdp \in \mathcal{P}, 表示为Rdp(f)\mathcal{R}_{dp}(f) .

性能度量#

期望误差#

  • 定义:E[Rdp(A(Dn(dp)))]\mathbb{E}\left[\mathcal{R}_{dp}(\mathcal{A}(\mathcal{D}_{n}(dp)))\right], 其中期望是关于训练数据的.

  • 一致性判断:对于分布dpdp, 如果当nn趋于无穷时, E[Rdp(A(Dn(dp)))]Rdp\mathbb{E}\left[\mathcal{R}_{dp}(\mathcal{A}(\mathcal{D}_{n}(dp)))\right] - \mathcal{R}_{dp}^*趋于00, 则称算法A\mathcal{A}在期望上是一致的.

  • “可能近似正确”(PAC)学习:对于给定的δ(0,1)\delta \in (0, 1)ε>0\varepsilon > 0

P([Rdp(A(Dn(dp)))Rdp]ε)1δ\mathbb{P}\left(\left[\mathcal{R}_{dp}(\mathcal{A}(\mathcal{D}_{n}(dp)))-\mathcal{R}_{dp}^*\right]\leq\varepsilon\right)\geq1 - \delta

关键在于找到尽可能小的ε\varepsilon(通常是δ\delta的函数). PAC一致性的概念是指, 对于任意ε>0\varepsilon > 0, 对于每个nn 都有这样一个不等式成立, 并且存在一个趋于00的序列δn\delta_{n} .

没有免费的午餐定理#

定理(固定nn): 考虑带有0 - 1损失的二分类问题, 其中X\mathcal{X} 是无限集. 设P\mathcal{P} 表示X×{0,1}\mathcal{X} \times \{0, 1\} 上所有概率分布的集合. 对于任意n>0n > 0 和学习算法A\mathcal{A},

supdpPE[Rdp(A(Dn(dp)))]Rdp1/2\sup_{dp \in \mathcal{P}} \mathbb{E}\left[\mathcal{R}_{dp}(\mathcal{A}(\mathcal{D}_{n}(dp)))\right] - \mathcal{R}_{dp}^* \geq 1/2

该定理指出, 不存在一个能在所有分布上都最优运行的学习算法. 也就是说, 在机器学习中, 没有假设的情况下学习是不可能的. 这打破了我们对于找到一个通用的完美算法的幻想.

证明的主要思路:

(a) 构造一个支撑在N\mathbb{N}kk 个元素上的概率分布, 其中kk 相较于固定的nn 很大, 并证明nn 个标签的信息并不能保证在所有kk 个元素上都表现良好;

(b) 通过与由随机参数得到的性能进行比较来选择该分布的参数(下面的向量rr).

定理 (误差序列): 考虑带有0 - 1损失的二分类问题, 其中X\mathcal{X} 是无限集. 设P\mathcal{P} 表示X×{0,1}\mathcal{X} \times \{0, 1\} 上所有概率分布的集合. 对于任意趋于00 的递减序列ana_n , 且满足a11/16a_1 \leq 1/16, 对于任意学习算法A\mathcal{A} , 存在dpPdp \in \mathcal{P} , 使得对于所有n1n \geq 1

E[Rdp(A(Dn(dp)))]Rdpan\mathbb{E}\left[\mathcal{R}_{dp}(\mathcal{A}(\mathcal{D}_{n}(dp)))\right] - \mathcal{R}_{dp}^* \geq a_n

证明:kk 为正整数. 不失一般性, 我们可以假设NX\mathbb{N} \subset \mathcal{X}.

给定r{0,1}kr \in \{0, 1\}^k, 我们在(x,y)(x, y) 上定义联合分布dpdp, 使得对于

j{1,,k}, P(x=j,y=rj)=1/k;j\in \{1,\ldots,k\},~\mathbb{P}(x = j, y = r_j) = 1/k;

也就是说, 对于xx, 我们从kk 个元素中均匀随机地选择一个, 然后yy 被选定为y=rxy = r_x. 因此贝叶斯风险为00(因为存在确定性关系):Rdp=0\mathcal{R}_{dp}^* = 0.

f^Dn=A(Dn(dp))\widehat{f}_{\mathcal{D}_{n}} = \mathcal{A}(\mathcal{D}_{n}(dp)) 为分类器, S(r)=E[Rdp(f^Dn)]S(r) = \mathbb{E}[\mathcal{R}_{dp}(\widehat{f}_{\mathcal{D}_{n}})] 为期望风险, 我们想要关于r{0,1}kr \in \{0, 1\}^k 最大化S(r)S(r);这个最大值大于rr 上任意分布dqdqS(r)S(r) 的期望, 特别是均匀分布(每个rjr_j 是独立无偏的伯努利变量). 那么

maxr{0,1}kS(r)Erdq(r)S(r)=P(f^Dn(x)y)=P(f^Dn(x)rx)\begin{align*} \max_{r \in \{0, 1\}^k} S(r) &\geq \mathbb{E}_{r \sim dq(r)}S(r)\\ &= \mathbb{P}(\widehat{f}_{\mathcal{D}_{n}}(x) \neq y) = \mathbb{P}(\widehat{f}_{\mathcal{D}_{n}}(x) \neq r_x) \end{align*}

因为xx 几乎必然在{1,,k}\{1,\ldots,k\} 中, 且y=rxy = r_x 几乎必然成立. 注意我们是关于x1,,xn,xx_1,\ldots,x_n,xrr 取期望(它们相互独立).

Erdq(r)S(r)=E[P(f^Dn(x)rxx1,,xn,rx1,,rxn)]根据全期望公式E[P(f^Dn(x)rx & x{x1,,xn}x1,,xn,rx1,,rxn)]根据概率的单调性=E[12P(x{x1,,xn}x1,,xn,rx1,,rxn)]\begin{align*} \mathbb{E}_{r \sim dq(r)}S(r) &= \mathbb{E}\left[\mathbb{P}(\widehat{f}_{\mathcal{D}_{n}}(x) \neq r_x|x_1,\ldots,x_n,r_{x_1},\ldots,r_{x_n})\right] & \text{根据全期望公式}\\ &\geq \mathbb{E}\left[\mathbb{P}(\widehat{f}_{\mathcal{D}_{n}}(x) \neq r_x \ \& \ x \notin \{x_1,\ldots,x_n\}|x_1,\ldots,x_n,r_{x_1},\ldots,r_{x_n})\right] & \text{根据概率的单调性}\\ &= \mathbb{E}\left[\frac{1}{2}\mathbb{P}(x \notin \{x_1,\ldots,x_n\}|x_1,\ldots,x_n,r_{x_1},\ldots,r_{x_n})\right] & \end{align*}

因为P(f^Dn(x)rxx{x1,,xn},x1,,xn,rx1,,rxn)=1/2\mathbb{P}(\widehat{f}_{\mathcal{D}_{n}}(x) \neq r_x|x \notin \{x_1,\ldots,x_n\},x_1,\ldots,x_n,r_{x_1},\ldots,r_{x_n}) = 1/2(在xx 未被观测到的情况下, 标签x=rxx = r_x0011 的概率相同). 因此,

Erdq(r)S(r)12P(x{x1,,xn})=12E[i=1nP(xixx)]=12(11/k)n\mathbb{E}_{r \sim dq(r)}S(r) \geq \frac{1}{2}\mathbb{P}(x \notin \{x_1,\ldots,x_n\}) = \frac{1}{2}\mathbb{E}\left[\prod_{i = 1}^{n}\mathbb{P}(x_i \neq x|x)\right] = \frac{1}{2}(1 - 1/k)^n

给定nn, 我们可以让kk 趋于无穷来得出结论.


评估方法#

交叉验证#

  • K折交叉验证:将数据集分为K个互不重叠子集, 轮流以一个子集为测试集, 其余为训练集, 重复K次, 取平均评估模型.

  • 留一交叉验证(LOOCV):K等于样本总数, 每次用一个样本做验证, 其余做训练, 遍历所有样本

  • 分层交叉验证:适用于分类任务, 保证每个折内类别分布与整体一致, 避免类别失衡影响评估.

  • 时间序列交叉验证:用于时间序列数据, 按时间顺序划分, 防止数据泄漏, 保证评估真实性.

  • 嵌套交叉验证:包含内外层, 外层评估模型泛化性, 内层用于超参数优化.

取出测试集, 剩下的(A,B,C,D,E)当训练集和验证集, 第一次A当验证, BCDE训练. 第二次B当验证, ACDE训练…
image-20250320152201809
「机器学习」基础内容
https://blog.mcj.life/posts/250320机器学习基础内容/
Author
CiMorn
Published at
2025-03-20