动手学深度学习-11

模型选择 + 过拟合和欠拟合

作为机器学习科学家，我们的目标是发现模式。但是，我们如何才能确定模型是真正发现了一种泛化的模型，而不是简单地记住了数据呢？只有当模型真正发现了一种泛化模式时，才会作出有效的预测。将模型在训练数据上拟合的比在潜在分布中更接近的现象称为过拟合(overfitting)，用于对抗过拟合的技术则称为正则化(regularization)

训练误差和泛化误差

训练误差(training error)是指，模型在训练数据集上计算得到的误差；泛化误差(generalization error)是指，模型应用在同样从原始样本的分布中抽取的无限多数据样本时，模型误差的期望
问题是，我们永远不能准确的计算出泛化误差，这是因为无限多的数据样本是一个虚构的对象。在实际中，我们只能通过将模型应用于一个独立的测试集来估计泛化误差，该测试集由随机选取的、未曾在训练集中出现的数据样本构成

统计学习理论

泛化是机器学习中的基本问题。在我们目前已讨论、并将在之后继续探讨的监督学习情景中，我们假设训练数据和测试数据都是从相同的分布中独立提取的。这通常被称为独立同分布假设，这意味着对数据进行采样的过程没有进行“记忆”。
有时候我们即使轻微违背独立同分布假设，模型仍将继续运行得很好

模型复杂性

当我们有简单的模型和大量的数据时，我们期望泛化误差与训练误差相近。当我们有更复杂的模型和更少的样本时，我们预计训练误差会下降，但泛化误差会增大
通常对于神经网络，我们认为需要更多训练迭代的模型比较复杂，而需要早停的模型（即较少的迭代周期）就不那么复杂
我们很难比较本质上不同大类的模型之间的复杂性。就目前而言，一条简单的经验法则相当有用：统计学家认为，能够轻松解释任意事实的模型是复杂的，而表达能力有限但仍能很好地解释数据的模型可能更有现实用途
几个倾向于影响模型泛化的因素
- 可调整参数的数量。当可调整参数的数量（有时称为自由度）很大时，模型往往更容易过拟合
- 参数采用的值。当权重的取值范围较大时，模型可能更容易过拟合
- 训练样本的数量。即使模型很简单，也很容易过拟合只包含一两个样本的数据集。而过拟合一个有数百万个样本的数据集则需要一个极其灵活的模型

模型选择

在机器学习中，我们通常在评估几个候选模型后选择最终的模型，这个过程叫做模型选择。为了确定候选模型中的最佳模型，我们通常会使用验证集

验证集

K则交叉验证

当训练数据稀缺时，我们甚至可能无法提供足够的数据来构成一个合适的验证集，这个问题的一个流行的解决方案是采用K则交叉验证

欠拟合还是过拟合？

当我们比较训练和验证误差时，我们要注意两种常见的情况
- 首先，我们要注意这样的情况：训练误差和验证误差都很严重，但它们之间仅有一点差距。如果模型不能降低训练误差，这可能意味着模型过于简单（即表达能力不足），无法捕获试图学习的模式。此外，由于我们的训练和验证误差之间的泛化误差很小，我们有理由相信可以用一个更复杂的模型降低训练误差。这种现象被称为欠拟合
- 另一方面，当我们的训练误差明显低于验证误差时要小心，这表明严重的过拟合。注意，过拟合并不总是一件坏事，特别是在深度学习领域。最终，我们通常更关心验证误差，而不是训练误差和验证误差之间的差距
是否过拟合或欠拟合可能取决于模型复杂性和可用训练数据集的大小

模型复杂度

数据集大小

从一定程度上来说，深度学习目前的生机要归功于廉价存储、互联设备以及数字化经济带来的海量数据集

多项式回归

可以通过多项式拟合来探索这些概念

import math
import numpy as np
import torch
from torch import nn
from d2l import torch as d2l

生成数据集

给定，我们将使用以下三阶多项式来生成训练和测试数据的标签：

噪声项服从均值为0且标准差为0.1的正态分布。
在优化的过程中，我们通常希望避免非常大的梯度值或损失值。
这就是我们将特征从调整为的原因，
这样可以避免很大的带来的特别大的指数值。
我们将为训练集和测试集各生成100个样本。

max_degree = 20 # 多项式的最大阶数
n_train, n_test = 100, 100 # 训练和测试数据集的大小
true_w = np.zeros(max_degree) # 分配大量的空间
true_w = np.array([5, 1.2, -3.4, 5.6])

features = np.random.normal(size=(n_train + n_test, 1))
np.random.shuffle(features)
poly_features = np.power(features, np.arange(max_degree).reshape(1, -1))
for i in range(max_degree):
    poly_features[:, i] /= math.gamma(i + 1) # gamma(n)=(n-1)!
# labels的维度：(n_train + n_test, )
labels = np.dot(poly_features, true_w)
labels += np.random.normal(scale=0.1, size=label.shape)

# Numpy ndarray转换为tensor
true_w, features, poly_features, labels = [torch.tensor(x, dtype=torch.float32) for x in [true_w, features, poly_features, labels]]

对模型进行训练和测试

首先实现一个函数来评估模型在给定数据集上的损失

def evaluate_loss(net, data_iter, loss):  #@save
    """评估给定数据集上模型的损失"""
    metric = d2l.Accumulator(2) # 损失的总和，样本数量
    for X, y in data_iter:
        out = net(X)
        y = y.reshape(out.shape)
        l = loss(out, y)
        metric.add(l.sum(), l.numel())
    return metric[0] / metric[1]

定义训练函数

def train(train_features, test_features, train_labels, test_labels, num_epochs=400):
    loss = nn.MSELoss(reduction='none')
    input_shape = train_features.shape[-1]
    # 不设置偏置，因为我们已经在多项式中实现了它
    net = nn.Sequential(nn.Linear(input_shape, 1, bias=False))
    batch_size = min(10, train_labels.shape[0])

    train_iter = d2l.load_array((train_features, train_labels.reshape(-1, 1)), batch_size)

    test_iter = d2l.load_array((test_features, test_labels.reshape(-1, 1)), batch_size, is_train=False)

    trainer = torch.optim.SGD(net.parameters(), lr=0.01)

    animator = d2l.Animator(xlabel='epoch', ylabel='loss', yscale='log', xlim=[1, num_epochs], ylim=[1e-3, 1e2], legend=['train', 'test'])

    for epoch in range(num_epochs):
        d2l.train_epoch_ch3(net, train_iter, loss, trainer)

        if epoch == 0 or (epoch + 1) % 20 == 0:
            animator.add(epoch + 1, (evaluate_loss(net, train_iter, loss), evaluate_loss(net, test_iter, loss)))
        
    print('weight: ', net[0].weight.data.numpy())

三阶多项式函数拟合（正常）

我们首先使用三阶多项式函数，它与数据生成函数的阶数相同

# 从多项式特征中选择前4个维度，即1,x,x^2/2!,x^3/3!
train(poly_features[:n_train, :4], poly_features[n_train:, :4], labels[:n_train], labels[n_train:])

线性函数拟合（欠拟合）

1
2
# 从多项式特征中选择前两个维度，即1和x
train(poly_features[:n_train, :2], poly_features[n_train:, :2], labels[:n_train], labels[n_train:])

高阶多项式函数拟合

尝试使用一个阶数过高的多项式来训练模型。在这种情况下，没有足够的数据用于学到高阶系数应该具有接近于零的值。因此，这个过于复杂的模型会轻易受到训练数据中噪声的影响。虽然训练损失可以有效降低，但测试损失仍然很高。结果表明，复杂模型对数据造成了过拟合
1
train(poly_features[:n_train, :], poly_features[n_train:, :], labels[:n_train], labels[n_train:], num_epochs=1500)

小结

欠拟合是指模型无法继续减少训练误差。过拟合是指训练误差远小于验证误差
由于不能基于训练误差来估计泛化误差，因此简单地最小化训练误差并不意味着泛化误差的减小。机器学习模型需要注意防止过拟合，即防止泛化误差过大
验证集可以用于模型选择，但不能过于随意地使用它
我们应该选择一个复杂度适当的模型，避免使用数量不足的训练样本

敖炜的博客