ymir-vidt 镜像说明文档#
ICLR 2022的 transformer 架构检测器
代码仓库#
镜像地址#
youdaoyzbx/ymir-executor:ymir2.0.0-vidt-cu111-tmi
性能表现#
数据参考naver-ai/vidt
| Backbone | Epochs | AP | AP50 | AP75 | AP_S | AP_M | AP_L | Params | FPS | Checkpoint / Log |
|---|---|---|---|---|---|---|---|---|---|---|
Swin-nano |
50 (150) | 40.4 (42.6) | 59.9 (62.2) | 43.0 (45.7) | 23.1 (24.9) | 42.8 (45.4) | 55.9 (59.1) | 16M | 20.0 | Github / Log (Github / Log) |
Swin-tiny |
50 (150) | 44.9 (47.2) | 64.7 (66.7) | 48.3 (51.4) | 27.5 (28.4) | 47.9 (50.2) | 61.9 (64.7) | 38M | 17.2 | Github / Log (Github / Log) |
Swin-small |
50 (150) | 47.4 (48.8) | 67.7 (68.8) | 51.2 (53.0) | 30.4 (30.7) | 50.7 (52.0) | 64.6 (65.9) | 60M | 12.1 | Github / Log (Github / Log) |
Swin-base |
50 (150) | 49.4 (50.4) | 69.6 (70.4) | 53.4 (54.8) | 31.6 (34.1) | 52.4 (54.2) | 66.8 (67.4) | 0.1B | 9.0 | Github / Log (Github / Log) |
训练参数#
| 超参数 | 默认值 | 类型 | 说明 | 建议 |
|---|---|---|---|---|
| hyper-parameter | default value | type | note | advice |
| shm_size | 128G | 字符串 | 受ymir后台处理,docker image 可用共享内存 | 建议大小:镜像占用GPU数 * 32G |
| export_format | ark:raw | 字符串 | 受ymir后台处理,ymir数据集导出格式 | - |
| backbone_name | swin_nano | 字符串 | 骨架网络,可选swin_nano, swin_tiny, swin_small, swin_base | - |
| batch_size_per_gpu | 16 | 整数 | 每张GPU一次处理的图片数量 | 建议大小:显存占用<50% 可增加2倍加快训练速度 |
| num_workers_per_gpu | 4 | 整数 | 每张GPU对应的数据读取进程数 | - |
| epochs | 50 | 整数 | 整个数据集的训练遍历次数 | 建议:必要时分析tensorboard确定是否有必要改变,一般采用默认值即可 |
| learning_rate | 0.0001 | 浮点数 | 学习率 | - |
| eval_size | 640 | 整数 | 输入网络的图片大小 | - |
| weight_save_interval | 100 | 整数 | 权重文件保存间隔 | - |
| args_options | '' | 字符串 | 命令行参数 | 参考 get_args_parser |
推理参数#
| 超参数 | 默认值 | 类型 | 说明 | 建议 |
|---|---|---|---|---|
| hyper-parameter | default value | type | note | advice |
| conf_threshold | 0.2 | 浮点数 | 置信度阈值 | 采用默认值 |
挖掘参数#
| 超参数 | 默认值 | 类型 | 说明 | 建议 |
|---|---|---|---|---|
| hyper-parameter | default value | type | note | advice |
| conf_threshold | 0.2 | 浮点数 | 置信度阈值 | 采用默认值 |
引用#
@inproceedings{song2022vidt,
title={ViDT: An Efficient and Effective Fully Transformer-based Object Detector},
author={Song, Hwanjun and Sun, Deqing and Chun, Sanghyuk and Jampani, Varun and Han, Dongyoon and Heo, Byeongho and Kim, Wonjae and Yang, Ming-Hsuan},
booktitle={International Conference on Learning Representation},
year={2022}
}