本项目包含两个任务:
- 使用在 ImageNet 上预训练的卷积神经网络(如 ResNet-18、AlexNet);
- 修改输出层以适配 Caltech-101 的 101 个类别;
- 对新输出层进行训练,同时以较小学习率微调预训练部分;
- 比较预训练与从零开始训练的性能差异。
- 在 VOC 数据集上训练 Mask R-CNN 和 Sparse R-CNN 模型;
- 对模型在测试图像上的目标检测与实例分割结果进行可视化;
- 对比 proposal 阶段与最终预测的差异;
- 分析模型在非 VOC 图像上的泛化能力。
- 任务一模型:使用 ImageNet 预训练的以及从头开始训练的 ResNet-18,替换输出层以适应 Caltech-101 分类任务;
- 任务二模型:采用经典的 Mask R-CNN(两阶段、基于 proposal)与 Sparse R-CNN(基于 query 的端到端检测)进行目标检测与实例分割。
-
✅ 任务一:完成了模型的训练与微调,使用 TensorBoard 记录了训练集与验证集上的 loss 曲线及准确率变化。对比实验验证了预训练模型的显著优势;
-
✅ 任务二:基于现有框架成功完成了 VOC 上的 Mask R-CNN 与 Sparse R-CNN 训练,并对比展示了 proposal 与最终预测的差异、两个模型的检测与分割效果,以及在 VOC 外部图像上的表现。
请分别进入任务子文件夹查看对应的训练与测试方法说明:
- 📁
TASK1/:包含 Caltech-101 图像分类任务的代码、训练说明及模型权重; - 📁
TASK2/:包含 VOC 实例分割任务(Mask R-CNN 和 Sparse R-CNN)的训练、可视化、评估代码与说明。
- 📄 实验报告(PDF):点击查看实验报告(PDF)
- 📦 模型权重下载地址:( Google Drive )