## 简介 | |
MMDetection 是一个基于 PyTorch 的目标检测开源工具箱。它是 [OpenMMLab]( 项目的一部分。 | |
主分支代码目前支持 PyTorch 1.8 及其以上的版本。 | |
<img src=""/> | |
<details open> | |
<summary>主要特性</summary> | |
- **模块化设计** | |
MMDetection 将检测框架解耦成不同的模块组件,通过组合不同的模块组件,用户可以便捷地构建自定义的检测模型 | |
- **支持多种检测任务** | |
MMDetection 支持了各种不同的检测任务,包括**目标检测**,**实例分割**,**全景分割**,以及**半监督目标检测**。 | |
- **速度快** | |
基本的框和 mask 操作都实现了 GPU 版本,训练速度比其他代码库更快或者相当,包括 [Detectron2](, [maskrcnn-benchmark]( 和 [SimpleDet](。 | |
- **性能高** | |
MMDetection 这个算法库源自于 COCO 2018 目标检测竞赛的冠军团队 *MMDet* 团队开发的代码,我们在之后持续进行了改进和提升。 | |
新发布的 [RTMDet](configs/rtmdet) 还在实时实例分割和旋转目标检测任务中取得了最先进的成果,同时也在目标检测模型中取得了最佳的的参数量和精度平衡。 | |
</details> | |
除了 MMDetection 之外,我们还开源了深度学习训练库 [MMEngine]( 和计算机视觉基础库 [MMCV](,它们是 MMDetection 的主要依赖。 | |
## 最新进展 | |
💎 **我们已经发布了 MM-Grounding-DINO Swin-B 和 Swin-L 预训练权重,欢迎试用和反馈.** | |
### 亮点 | |
**v3.3.0** 版本已经在 2024.1.5 发布: | |
**MM-Grounding-DINO: 轻松涨点,数据到评测全面开源** | |
Grounding DINO 是一个统一了 2d 开放词汇目标检测和 Phrase Grounding 的检测预训练模型,应用广泛,但是其训练部分并未开源,为此提出了 MM-Grounding-DINO。其不仅作为 Grounding DINO 的开源复现版,MM-Grounding-DINO 基于重新构建的数据类型出发,在探索了不同数据集组合和初始化策略基础上实现了 Grounding DINO 的性能极大提升,并且从多个维度包括 OOD、REC、Phrase Grounding、OVD 和 Finetune 等方面进行评测,充分挖掘 Grounding 预训练优缺点,希望能为后续工作提供启发。 | |
arxiv 技术报告: | |
代码地址: [mm_grounding_dino/](configs/mm_grounding_dino/ | |
<div align=center> | |
<img src=""/> | |
</div> | |
我们很高兴向大家介绍我们在实时目标识别任务方面的最新成果 RTMDet,包含了一系列的全卷积单阶段检测模型。 RTMDet 不仅在从 tiny 到 extra-large 尺寸的目标检测模型上实现了最佳的参数量和精度的平衡,而且在实时实例分割和旋转目标检测任务上取得了最先进的成果。 更多细节请参阅[技术报告](。 预训练模型可以在[这里](configs/rtmdet)找到。 | |
[]( | |
[]( | |
[]( | |
| Task | Dataset | AP | FPS(TRT FP16 BS1 3090) | | |
| ------------------------ | ------- | ------------------------------------ | ---------------------- | | |
| Object Detection | COCO | 52.8 | 322 | | |
| Instance Segmentation | COCO | 44.6 | 188 | | |
| Rotated Object Detection | DOTA | 78.9(single-scale)/81.3(multi-scale) | 121 | | |
<div align=center> | |
<img src=""/> | |
</div> | |
## 安装 | |
请参考[快速入门文档](进行安装。 | |
## 教程 | |
请阅读[概述](对 MMDetection 进行初步的了解。 | |
为了帮助用户更进一步了解 MMDetection,我们准备了用户指南和进阶指南,请阅读我们的[文档]( | |
- 用户指南 | |
<details> | |
- [训练 & 测试]( | |
- [学习配置文件]( | |
- [使用已有模型在标准数据集上进行推理]( | |
- [数据集准备]( | |
- [测试现有模型]( | |
- [在标准数据集上训练预定义的模型]( | |
- [在自定义数据集上进行训练]( | |
- [在标准数据集上训练自定义模型]( | |
- [模型微调]( | |
- [提交测试结果]( | |
- [权重初始化]( | |
- [将单阶段检测器作为 RPN]( | |
- [半监督目标检测]( | |
- [实用工具]( | |
</details> | |
- 进阶指南 | |
<details> | |
- [基础概念]( | |
- [组件定制]( | |
- [How to]( | |
</details> | |
我们提供了检测的 colab 教程 [](demo/MMDet_Tutorial.ipynb) 和 实例分割的 colab 教程 [](demo/MMDet_Tutorial.ipynb) | |
同时,我们还提供了 [MMDetection 中文解读文案汇总](docs/zh_cn/ | |
若需要将2.x版本的代码迁移至新版,请参考[迁移文档](。 | |
## 基准测试和模型库 | |
测试结果和模型可以在[模型库](docs/zh_cn/中找到。 | |
<div align="center"> | |
<b>算法架构</b> | |
</div> | |
<table align="center"> | |
<tbody> | |
<tr align="center" valign="bottom"> | |
<td> | |
<b>Object Detection</b> | |
</td> | |
<td> | |
<b>Instance Segmentation</b> | |
</td> | |
<td> | |
<b>Panoptic Segmentation</b> | |
</td> | |
<td> | |
<b>Other</b> | |
</td> | |
</tr> | |
<tr valign="top"> | |
<td> | |
<ul> | |
<li><a href="configs/fast_rcnn">Fast R-CNN (ICCV'2015)</a></li> | |
<li><a href="configs/faster_rcnn">Faster R-CNN (NeurIPS'2015)</a></li> | |
<li><a href="configs/rpn">RPN (NeurIPS'2015)</a></li> | |
<li><a href="configs/ssd">SSD (ECCV'2016)</a></li> | |
<li><a href="configs/retinanet">RetinaNet (ICCV'2017)</a></li> | |
<li><a href="configs/cascade_rcnn">Cascade R-CNN (CVPR'2018)</a></li> | |
<li><a href="configs/yolo">YOLOv3 (ArXiv'2018)</a></li> | |
<li><a href="configs/cornernet">CornerNet (ECCV'2018)</a></li> | |
<li><a href="configs/grid_rcnn">Grid R-CNN (CVPR'2019)</a></li> | |
<li><a href="configs/guided_anchoring">Guided Anchoring (CVPR'2019)</a></li> | |
<li><a href="configs/fsaf">FSAF (CVPR'2019)</a></li> | |
<li><a href="configs/centernet">CenterNet (CVPR'2019)</a></li> | |
<li><a href="configs/libra_rcnn">Libra R-CNN (CVPR'2019)</a></li> | |
<li><a href="configs/tridentnet">TridentNet (ICCV'2019)</a></li> | |
<li><a href="configs/fcos">FCOS (ICCV'2019)</a></li> | |
<li><a href="configs/reppoints">RepPoints (ICCV'2019)</a></li> | |
<li><a href="configs/free_anchor">FreeAnchor (NeurIPS'2019)</a></li> | |
<li><a href="configs/cascade_rpn">CascadeRPN (NeurIPS'2019)</a></li> | |
<li><a href="configs/foveabox">Foveabox (TIP'2020)</a></li> | |
<li><a href="configs/double_heads">Double-Head R-CNN (CVPR'2020)</a></li> | |
<li><a href="configs/atss">ATSS (CVPR'2020)</a></li> | |
<li><a href="configs/nas_fcos">NAS-FCOS (CVPR'2020)</a></li> | |
<li><a href="configs/centripetalnet">CentripetalNet (CVPR'2020)</a></li> | |
<li><a href="configs/autoassign">AutoAssign (ArXiv'2020)</a></li> | |
<li><a href="configs/sabl">Side-Aware Boundary Localization (ECCV'2020)</a></li> | |
<li><a href="configs/dynamic_rcnn">Dynamic R-CNN (ECCV'2020)</a></li> | |
<li><a href="configs/detr">DETR (ECCV'2020)</a></li> | |
<li><a href="configs/paa">PAA (ECCV'2020)</a></li> | |
<li><a href="configs/vfnet">VarifocalNet (CVPR'2021)</a></li> | |
<li><a href="configs/sparse_rcnn">Sparse R-CNN (CVPR'2021)</a></li> | |
<li><a href="configs/yolof">YOLOF (CVPR'2021)</a></li> | |
<li><a href="configs/yolox">YOLOX (CVPR'2021)</a></li> | |
<li><a href="configs/deformable_detr">Deformable DETR (ICLR'2021)</a></li> | |
<li><a href="configs/tood">TOOD (ICCV'2021)</a></li> | |
<li><a href="configs/ddod">DDOD (ACM MM'2021)</a></li> | |
<li><a href="configs/rtmdet">RTMDet (ArXiv'2022)</a></li> | |
<li><a href="configs/conditional_detr">Conditional DETR (ICCV'2021)</a></li> | |
<li><a href="configs/dab_detr">DAB-DETR (ICLR'2022)</a></li> | |
<li><a href="configs/dino">DINO (ICLR'2023)</a></li> | |
<li><a href="configs/glip">GLIP (CVPR'2022)</a></li> | |
<li><a href="configs/ddq">DDQ (CVPR'2023)</a></li> | |
<li><a href="projects/DiffusionDet">DiffusionDet (ArXiv'2023)</a></li> | |
<li><a href="projects/EfficientDet">EfficientDet (CVPR'2020)</a></li> | |
<li><a href="projects/ViTDet">ViTDet (ECCV'2022)</a></li> | |
<li><a href="projects/Detic">Detic (ECCV'2022)</a></li> | |
<li><a href="projects/CO-DETR">CO-DETR (ICCV'2023)</a></li> | |
</ul> | |
</td> | |
<td> | |
<ul> | |
<li><a href="configs/mask_rcnn">Mask R-CNN (ICCV'2017)</a></li> | |
<li><a href="configs/cascade_rcnn">Cascade Mask R-CNN (CVPR'2018)</a></li> | |
<li><a href="configs/ms_rcnn">Mask Scoring R-CNN (CVPR'2019)</a></li> | |
<li><a href="configs/htc">Hybrid Task Cascade (CVPR'2019)</a></li> | |
<li><a href="configs/yolact">YOLACT (ICCV'2019)</a></li> | |
<li><a href="configs/instaboost">InstaBoost (ICCV'2019)</a></li> | |
<li><a href="configs/solo">SOLO (ECCV'2020)</a></li> | |
<li><a href="configs/point_rend">PointRend (CVPR'2020)</a></li> | |
<li><a href="configs/detectors">DetectoRS (ArXiv'2020)</a></li> | |
<li><a href="configs/solov2">SOLOv2 (NeurIPS'2020)</a></li> | |
<li><a href="configs/scnet">SCNet (AAAI'2021)</a></li> | |
<li><a href="configs/queryinst">QueryInst (ICCV'2021)</a></li> | |
<li><a href="configs/mask2former">Mask2Former (ArXiv'2021)</a></li> | |
<li><a href="configs/condinst">CondInst (ECCV'2020)</a></li> | |
<li><a href="projects/SparseInst">SparseInst (CVPR'2022)</a></li> | |
<li><a href="configs/rtmdet">RTMDet (ArXiv'2022)</a></li> | |
<li><a href="configs/boxinst">BoxInst (CVPR'2021)</a></li> | |
<li><a href="projects/ConvNeXt-V2">ConvNeXt-V2 (Arxiv'2023)</a></li> | |
</ul> | |
</td> | |
<td> | |
<ul> | |
<li><a href="configs/panoptic_fpn">Panoptic FPN (CVPR'2019)</a></li> | |
<li><a href="configs/maskformer">MaskFormer (NeurIPS'2021)</a></li> | |
<li><a href="configs/mask2former">Mask2Former (ArXiv'2021)</a></li> | |
<li><a href="configs/XDecoder">XDecoder (CVPR'2023)</a></li> | |
</ul> | |
</td> | |
<td> | |
</ul> | |
<li><b>Contrastive Learning</b></li> | |
<ul> | |
<ul> | |
<li><a href="configs/selfsup_pretrain">SwAV (NeurIPS'2020)</a></li> | |
<li><a href="configs/selfsup_pretrain">MoCo (CVPR'2020)</a></li> | |
<li><a href="configs/selfsup_pretrain">MoCov2 (ArXiv'2020)</a></li> | |
</ul> | |
</ul> | |
</ul> | |
<li><b>Distillation</b></li> | |
<ul> | |
<ul> | |
<li><a href="configs/ld">Localization Distillation (CVPR'2022)</a></li> | |
<li><a href="configs/lad">Label Assignment Distillation (WACV'2022)</a></li> | |
</ul> | |
</ul> | |
<li><b>Semi-Supervised Object Detection</b></li> | |
<ul> | |
<ul> | |
<li><a href="configs/soft_teacher">Soft Teacher (ICCV'2021)</a></li> | |
</ul> | |
</ul> | |
</ul> | |
</td> | |
</tr> | |
</td> | |
</tr> | |
</tbody> | |
</table> | |
<div align="center"> | |
<b>模块组件</b> | |
</div> | |
<table align="center"> | |
<tbody> | |
<tr align="center" valign="bottom"> | |
<td> | |
<b>Backbones</b> | |
</td> | |
<td> | |
<b>Necks</b> | |
</td> | |
<td> | |
<b>Loss</b> | |
</td> | |
<td> | |
<b>Common</b> | |
</td> | |
</tr> | |
<tr valign="top"> | |
<td> | |
<ul> | |
<li>VGG (ICLR'2015)</li> | |
<li>ResNet (CVPR'2016)</li> | |
<li>ResNeXt (CVPR'2017)</li> | |
<li>MobileNetV2 (CVPR'2018)</li> | |
<li><a href="configs/hrnet">HRNet (CVPR'2019)</a></li> | |
<li><a href="configs/empirical_attention">Generalized Attention (ICCV'2019)</a></li> | |
<li><a href="configs/gcnet">GCNet (ICCVW'2019)</a></li> | |
<li><a href="configs/res2net">Res2Net (TPAMI'2020)</a></li> | |
<li><a href="configs/regnet">RegNet (CVPR'2020)</a></li> | |
<li><a href="configs/resnest">ResNeSt (ArXiv'2020)</a></li> | |
<li><a href="configs/pvt">PVT (ICCV'2021)</a></li> | |
<li><a href="configs/swin">Swin (CVPR'2021)</a></li> | |
<li><a href="configs/pvt">PVTv2 (ArXiv'2021)</a></li> | |
<li><a href="configs/resnet_strikes_back">ResNet strikes back (ArXiv'2021)</a></li> | |
<li><a href="configs/efficientnet">EfficientNet (ArXiv'2021)</a></li> | |
<li><a href="configs/convnext">ConvNeXt (CVPR'2022)</a></li> | |
<li><a href="projects/ConvNeXt-V2">ConvNeXtv2 (ArXiv'2023)</a></li> | |
</ul> | |
</td> | |
<td> | |
<ul> | |
<li><a href="configs/pafpn">PAFPN (CVPR'2018)</a></li> | |
<li><a href="configs/nas_fpn">NAS-FPN (CVPR'2019)</a></li> | |
<li><a href="configs/carafe">CARAFE (ICCV'2019)</a></li> | |
<li><a href="configs/fpg">FPG (ArXiv'2020)</a></li> | |
<li><a href="configs/groie">GRoIE (ICPR'2020)</a></li> | |
<li><a href="configs/dyhead">DyHead (CVPR'2021)</a></li> | |
</ul> | |
</td> | |
<td> | |
<ul> | |
<li><a href="configs/ghm">GHM (AAAI'2019)</a></li> | |
<li><a href="configs/gfl">Generalized Focal Loss (NeurIPS'2020)</a></li> | |
<li><a href="configs/seesaw_loss">Seasaw Loss (CVPR'2021)</a></li> | |
</ul> | |
</td> | |
<td> | |
<ul> | |
<li><a href="configs/faster_rcnn/">OHEM (CVPR'2016)</a></li> | |
<li><a href="configs/gn">Group Normalization (ECCV'2018)</a></li> | |
<li><a href="configs/dcn">DCN (ICCV'2017)</a></li> | |
<li><a href="configs/dcnv2">DCNv2 (CVPR'2019)</a></li> | |
<li><a href="configs/gn+ws">Weight Standardization (ArXiv'2019)</a></li> | |
<li><a href="configs/pisa">Prime Sample Attention (CVPR'2020)</a></li> | |
<li><a href="configs/strong_baselines">Strong Baselines (CVPR'2021)</a></li> | |
<li><a href="configs/resnet_strikes_back">Resnet strikes back (ArXiv'2021)</a></li> | |
</ul> | |
</td> | |
</tr> | |
</td> | |
</tr> | |
</tbody> | |
</table> | |
我们在[基于 MMDetection 的项目](./docs/zh_cn/notes/中列举了一些其他的支持的算法。 | |
## 常见问题 | |
请参考 [FAQ](docs/zh_cn/notes/ 了解其他用户的常见问题。 | |
## 贡献指南 | |
我们感谢所有的贡献者为改进和提升 MMDetection 所作出的努力。我们将正在进行中的项目添加进了[GitHub Projects](页面,非常欢迎社区用户能参与进这些项目中来。请参考[贡献指南](.github/来了解参与项目贡献的相关指引。 | |
## 致谢 | |
MMDetection 是一款由来自不同高校和企业的研发人员共同参与贡献的开源项目。我们感谢所有为项目提供算法复现和新功能支持的贡献者,以及提供宝贵反馈的用户。 我们希望这个工具箱和基准测试可以为社区提供灵活的代码工具,供用户复现已有算法并开发自己的新模型,从而不断为开源社区提供贡献。 | |
## 引用 | |
如果你在研究中使用了本项目的代码或者性能基准,请参考如下 bibtex 引用 MMDetection。 | |
``` | |
@article{mmdetection, | |
title = {{MMDetection}: Open MMLab Detection Toolbox and Benchmark}, | |
author = {Chen, Kai and Wang, Jiaqi and Pang, Jiangmiao and Cao, Yuhang and | |
Xiong, Yu and Li, Xiaoxiao and Sun, Shuyang and Feng, Wansen and | |
Liu, Ziwei and Xu, Jiarui and Zhang, Zheng and Cheng, Dazhi and | |
Zhu, Chenchen and Cheng, Tianheng and Zhao, Qijie and Li, Buyu and | |
Lu, Xin and Zhu, Rui and Wu, Yue and Dai, Jifeng and Wang, Jingdong | |
and Shi, Jianping and Ouyang, Wanli and Loy, Chen Change and Lin, Dahua}, | |
journal= {arXiv preprint arXiv:1906.07155}, | |
year={2019} | |
} | |
``` | |
## 开源许可证 | |
该项目采用 [Apache 2.0 开源许可证](LICENSE)。 | |
## OpenMMLab 的其他项目 | |
- [MMEngine]( OpenMMLab 深度学习模型训练基础库 | |
- [MMCV]( OpenMMLab 计算机视觉基础库 | |
- [MMPreTrain]( OpenMMLab 深度学习预训练工具箱 | |
- [MMagic]( OpenMMLab 新一代人工智能内容生成(AIGC)工具箱 | |
- [MMDetection]( OpenMMLab 目标检测工具箱 | |
- [MMDetection3D]( OpenMMLab 新一代通用 3D 目标检测平台 | |
- [MMRotate]( OpenMMLab 旋转框检测工具箱与测试基准 | |
- [MMYOLO]( OpenMMLab YOLO 系列工具箱与测试基准 | |
- [MMSegmentation]( OpenMMLab 语义分割工具箱 | |
- [MMOCR]( OpenMMLab 全流程文字检测识别理解工具包 | |
- [MMPose]( OpenMMLab 姿态估计工具箱 | |
- [MMHuman3D]( OpenMMLab 人体参数化模型工具箱与测试基准 | |
- [MMSelfSup]( OpenMMLab 自监督学习工具箱与测试基准 | |
- [MMRazor]( OpenMMLab 模型压缩工具箱与测试基准 | |
- [MMFewShot]( OpenMMLab 少样本学习工具箱与测试基准 | |
- [MMAction2]( OpenMMLab 新一代视频理解工具箱 | |
- [MMTracking]( OpenMMLab 一体化视频目标感知平台 | |
- [MMFlow]( OpenMMLab 光流估计工具箱与测试基准 | |
- [MMEditing]( OpenMMLab 图像视频编辑工具箱 | |
- [MMGeneration]( OpenMMLab 图片视频生成模型工具箱 | |
- [MMDeploy]( OpenMMLab 模型部署框架 | |
- [MIM]( OpenMMlab 项目、算法、模型的统一入口 | |
- [MMEval]( 统一开放的跨框架算法评测库 | |
- [Playground]( 收集和展示 OpenMMLab 相关的前沿、有趣的社区项目 | |
## 欢迎加入 OpenMMLab 社区 | |
扫描下方的二维码可关注 OpenMMLab 团队的 [知乎官方账号](,扫描下方微信二维码添加喵喵好友,进入 MMDectection 微信交流社群。【加好友申请格式:研究方向+地区+学校/公司+姓名】 | |
<div align="center"> | |
<img src="resources/zhihu_qrcode.jpg" height="400" /> <img src="resources/miaomiao_qrcode.jpg" height="400" /> | |
</div> | |
我们会在 OpenMMLab 社区为大家 | |
- 📢 分享 AI 框架的前沿核心技术 | |
- 💻 解读 PyTorch 常用模块源码 | |
- 📰 发布 OpenMMLab 的相关新闻 | |
- 🚀 介绍 OpenMMLab 开发的前沿算法 | |
- 🏃 获取更高效的问题答疑和意见反馈 | |
- 🔥 提供与各行各业开发者充分交流的平台 | |
干货满满 📘,等你来撩 💗,OpenMMLab 社区期待您的加入 👬 | |