跳到主要内容

评估

可以使用以下命令来评估模型:

python val.py --weights runs/train/exp/weights/best.pt --data coco.yaml 

评估后会输出

        Class     Images    P        R      mAP@0.5  mAP@0.5:0.95
all 1000 0.75 0.80 0.78 0.45
person 1000 0.88 0.92 0.90 0.67
dog 1000 0.82 0.88 0.85 0.50
...

  • P:精度(Precision)
  • R:召回率(Recall)
  • mAP@0.5:在IoU阈值为0.5时的平均精度
  • mAP@0.5:0.95:在多个IoU阈值下的平均精度

说明

评估参数注解

--img-size 640 --iou-thres 0.5 --task test
--weights:指定训练过程中生成的最优模型文件路径(例如 best.pt)。
--data:数据集配置文件,通常是 coco.yaml 或你自定义的数据配置文件。
--img-size:输入图片的尺寸,通常是 640416
--iou-thres:IoU 阈值,默认为 0.5
--task:评估任务,test 表示在测试集上进行评估。
评估时的其他选项:
--conf-thres:指定预测的置信度阈值,低于此值的预测将被丢弃。
--save-json:是否将检测结果保存为 JSON 格式,便于后续分析。

脚本

import torch
from pathlib import Path
from utils.general import check_requirements, check_img_size, set_logging
from utils.torch_utils import select_device
from utils.datasets import LoadImagesAndLabels
from utils.metrics import ap_per_class, box_iou, xywh2xyxy

def evaluate_model(model_path, data_path, img_size=640, batch_size=16, iou_thres=0.5):
# 设置日志
set_logging()

# 选择设备:自动选择GPU/CPU
device = select_device('')

# 加载模型
model = torch.load(model_path, map_location=device)['model'].float()
model.eval()

# 加载数据
dataset = LoadImagesAndLabels(data_path, img_size=img_size, batch_size=batch_size)

# 初始化指标
pred_list, target_list = [], []

with torch.no_grad():
for imgs, targets in dataset:
imgs = imgs.to(device)
pred = model(imgs)[0] # 获取预测结果

# 后处理:NMS去除多余的检测框
pred = non_max_suppression(pred, conf_thres=0.5, iou_thres=iou_thres)

for p, target in zip(pred, targets):
# 将目标和预测添加到列表
pred_list.append(p)
target_list.append(target)

# 计算平均精度(mAP)和IoU
ap, ap_class = ap_per_class(pred_list, target_list)

# 输出结果
print(f'mAP@0.5: {sum(ap) / len(ap):.4f}')
for i, c in enumerate(ap_class):
print(f'Class {c} - AP: {ap[i]:.4f}')

return sum(ap) / len(ap)


# 运行评估
if __name__ == "__main__":
model_path = 'runs/train/exp/weights/best.pt' # 训练好的权重文件路径
data_path = 'data/coco.yaml' # 数据集配置文件路径

mAP = evaluate_model(model_path, data_path)
print(f'Final mAP: {mAP:.4f}')

解释

  1. mAP(Mean Average Precision) mAP 是最常用的目标检测评估指标,它衡量了模型在所有类别上的平均精度。 mAP的计算方式: 对每个类别计算 Precision-Recall 曲线,得到不同的阈值下的精度(Precision)和召回率(Recall)。 计算不同召回率下的平均精度(Average Precision,AP)。 对所有类别的AP求平均,得到 mAP。 mAP@0.5 通常用于评估标准,而 mAP@0.5:0.95 是一个更严格的评估标准,它计算在多个IoU阈值下的mAP值。