目标检测、边界框和数据集
在图像分类任务中,我们假设图像中只有一个主要物体对象,我们只关注如何识别其类别。然而,很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。在计算机视觉里,我们将这类任务称为目标检测(object detection)或目标识别(object recognition)。
目标检测在多个领域中被广泛使用。例如,在无人驾驶里,我们需要通过识别拍摄到的视频图像里的车辆、行人、道路和障碍物的位置来规划行进线路。机器人也常通过该任务来检测感兴趣的目标。安防领域则需要检测异常目标,如歹徒或者炸弹。
首先介绍目标的“位置”
这里使用的是下面这张照片
边界框
目标检测中,通常使用边界框(bounding box)来描述对象的空间位置。边界框是矩形的,由矩形左上角的以及右下角的和坐标决定。另一种常用的边界框表示方法是边界框中心的轴坐标以及框的宽度和高度。
在两种表示法之间进行转换的函数:box_corner_to_center
从两角表示法转换为中心宽度表示法,box_center_to_corner
反之。参数boxes
可以是长度为4的张量,也可以是形状为(,4)的二维张量,是边界框的数量。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
| def box_corner_to_center(boxes): x1, y1, x2, y2 = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3] cx, cy = (x1 + x2) / 2, (y1 + y2) / 2 w = x2 - x1 h = y2 - y1 boxes = torch.stack((cx, cy, w, h), axis=-1) return boxes
def box_center_to_corner(boxes): cx, cy, h, w = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]
x1 = cx - 0.5 * w y1 = cy - 0.5 * h x2 = cx + 0.5 * w y2 = cy + 0.5 * h boxes = torch.stack((x1, y1, x2, y2), axis=-1)
return boxes
|
图像中坐标的原点是图像的左上角,向右的方向为轴的正方向,向下的方向为轴的正方向
定义一个辅助函数bbox_to_rect
。它将边界框表示成matplotlib
的边界框格式。
1 2 3 4 5 6 7
| def bbox_to_rect(bbox, color): return d2l.plt.Rectangle( xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1], fill=False, edgecolor=color, linewidth=2)
|
目标检测数据集
使用的是d2l团队自己标记的关于香蕉的数据集
下载数据集
包含所有图像和CSV标签文件的香蕉检测数据集可以直接从互联网下载
1 2 3 4 5 6 7 8 9 10
| %matplotlib inline import os import pandas as pd import torch import torchvision from d2l import torch as d2l
d2l.DATA_HUB["banana_detection"] = (d2l.DATA_URL + 'banana-detection.zip', '5de26c8fce5ccdea9f91267273464dc968d20d72')
|
读取数据集
通过read_data_bananas
函数读取香蕉检测数据集。该数据集包括一个CSV文件,内含目标类别标签和位于左上角和右下角的真实边界框坐标。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
| def read_data_bananas(is_train=True): """读取香蕉检测数据集中的图像和标签""" data_dir = d2l.download_extract("banana_detection")
csv_fname = os.path.join(data_dir, "bananas_train" if is_train else "bananas_val", "label.csv")
csv_data = pd.read_csv(csv_fname)
csv_data = csv_data.set_index("img_name")
images, targets = [], []
for img_name, target in csv_data.iterrows(): images.append(torchvision.io.read_image(os.path.join(data_dir, "bananas_train" if is_train else "bananas_val", "images", f"{img_name}")))
targets.append(list(target)) return images, torch.tensor(targets).unsqueeze(1) / 256
|
下面的BananasDataset
类将允许我们创建一个自定义Dataset
实例来加载香蕉检测数据集。
1 2 3 4 5 6 7 8 9 10 11 12
| class BananasDataset(torch.utils.data.Dataset): def __init__(self, is_train): self.features, self.labels = read_data_bananas(is_train) print('read ' + str(len(self.features)) + (f' training examples' if is_train else f' validation examples'))
def __getitem__(self, idx): return (self.features[idx].float(), self.labels[idx])
def __len__(self): return len(self.features)
|
定义load_data_bananas
函数,来为训练集和测试集返回两个数据加载器实例。对于测试集,无须按随机顺序读取它。
1 2 3 4 5 6 7
| def load_data_bananas(batch_size): train_iter = torch.utils.data.DataLoader(BananasDataset(is_train=True), batch_size, shuffle=True)
val_iter = torch.utils.data.DataLoader(BananasDataset(is_train=False), batch_size)
return train_iter, val_iter
|
读取一个小批量,并打印其中的图像和标签的形状。
图像的小批量的形状为(批量大小、通道数、高度、宽度),看起来很眼熟:它与我们之前图像分类任务中的相同。
标签的小批量的形状为(批量大小,,5),其中是数据集的任何图像中边界框可能出现的最大数量。
小批量计算虽然高效,但它要求每张图像含有相同数量的边界框,以便放在同一个批量中。
通常来说,图像可能拥有不同数量个边界框;因此,在达到之前,边界框少于的图像将被非法边界框填充。
这样,每个边界框的标签将被长度为5的数组表示。
数组中的第一个元素是边界框中对象的类别,其中-1表示用于填充的非法边界框。
数组的其余四个元素是边界框左上角和右下角的(,)坐标值(值域在0~1之间)。
对于香蕉数据集而言,由于每张图像上只有一个边界框,因此。
1 2 3 4
| batch_size, edge_size = 32, 256 train_iter, _ = load_data_bananas(batch_size) batch = next(iter(train_iter)) batch[0].shape, batch[1].shape
|
演示
展示10幅带有真实边界框的图像
1 2 3 4
| imgs = (batch[0][0: 10].permute(0, 2, 3, 1)) / 256 axes = d2l.show_images(imgs, 2, 5, scalle=2) for ax, label in zip(axes, batch[1][0:10]): d2l.show_bboxes(ax, [label[0][1:5] * edge_size], colors = ["w"])
|
小结
- 目标检测不仅可以识别图像中所有感兴趣的物体,还能识别它们的位置,该位置通常由矩形边界框表示。
- 我们可以在两种常用的边界框表示(中间,宽度,高度)和(左上,右下)坐标之间进行转换。
- 我们收集的香蕉检测数据集可用于演示目标检测模型。
- 用于目标检测的数据加载与图像分类的数据加载类似。但是,在目标检测中,标签还包含真实边界框的信息,它不出现在图像分类中。