模型评估

模型在训练集上的误差通常称为 “训练误差” 或 “经验误差”,而在新样本上的误差称为 “泛化误差”。显然,机器学习的目的是得到泛化误差小的学习器。然而,在实际应用中,新样本是未知的,所以只能使训练误差尽量小。

当模型在训练集上表现很好而在新样本上误差很大时,称为 “过拟合”;反之,模型在训练集上误差就很大时,称为 “欠拟合”。

奥卡姆剃刀定律:如无必要,勿增实体。即机器学习模型越简单,那么久越可能获得泛化误差小的学习器。

所以,为了得到泛化误差小的模型,并避免过拟合,在构建机器模型时,通常将 数据集拆分 为相互独立的训练数据集、验证数据集和测试数据集等,而在训练过程中使用验证数据集来评估模型并据此更新超参数,训练结束中使用测试数据集评估训练好的最终模型的性能。

评价指标

评价指标(也称性能度量)是评估机器学习泛化能力的标准,不同的指标往往会导致不同的评判结果。并且,不同的机器学习任务也有着不同的评价指标。

常用的评价指标有

比较检验

机器学习中,性能比较是比较复杂的

所以,我们需要运用统计假设检验(hypothesis test)得到模型的泛化性能是否在统计意义上较优。常用的方法包括

偏差与方差

泛化误差可以分解为偏差、方差与噪声之和,偏差 - 方差分解(bias-variance decomposition)是解释泛化性能的重要工具。

所以,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度共同决定的。

但偏差与方差是有冲突的,即偏差 - 方差窘境(bias-variance dilemma)。在训练程度不足时,学习器拟合程度不强,训练数据的扰动不足以产生显著变化,此时偏差主导泛化错误率。随着训练程度加深,学习器拟合能力增强,训练数据的扰动逐渐可以被学习器学到,方差逐渐主导泛化错误率。如果继续加深训练,则有可能发生过拟合。

参考文档