ymir-vidt 镜像说明文档#

ICLR 2022的 transformer 架构检测器

代码仓库#

参考naver-ai/vidt - modelai/ymir-vidt

镜像地址#

youdaoyzbx/ymir-executor:ymir2.0.0-vidt-cu111-tmi

性能表现#

数据参考naver-ai/vidt

Backbone	Epochs	AP	AP50	AP75	AP_S	AP_M	AP_L	Params	FPS	Checkpoint / Log
`Swin-nano`	50 (150)	40.4 (42.6)	59.9 (62.2)	43.0 (45.7)	23.1 (24.9)	42.8 (45.4)	55.9 (59.1)	16M	20.0	Github / Log (Github / Log)
`Swin-tiny`	50 (150)	44.9 (47.2)	64.7 (66.7)	48.3 (51.4)	27.5 (28.4)	47.9 (50.2)	61.9 (64.7)	38M	17.2	Github / Log (Github / Log)
`Swin-small`	50 (150)	47.4 (48.8)	67.7 (68.8)	51.2 (53.0)	30.4 (30.7)	50.7 (52.0)	64.6 (65.9)	60M	12.1	Github / Log (Github / Log)
`Swin-base`	50 (150)	49.4 (50.4)	69.6 (70.4)	53.4 (54.8)	31.6 (34.1)	52.4 (54.2)	66.8 (67.4)	0.1B	9.0	Github / Log (Github / Log)

训练参数#

超参数	默认值	类型	说明	建议
hyper-parameter	default value	type	note	advice
shm_size	128G	字符串	受ymir后台处理，docker image 可用共享内存	建议大小：镜像占用GPU数 * 32G
export_format	ark:raw	字符串	受ymir后台处理，ymir数据集导出格式	-
backbone_name	swin_nano	字符串	骨架网络，可选swin_nano, swin_tiny, swin_small, swin_base	-
batch_size_per_gpu	16	整数	每张GPU一次处理的图片数量	建议大小：显存占用<50% 可增加2倍加快训练速度
num_workers_per_gpu	4	整数	每张GPU对应的数据读取进程数	-
epochs	50	整数	整个数据集的训练遍历次数	建议：必要时分析tensorboard确定是否有必要改变，一般采用默认值即可
learning_rate	0.0001	浮点数	学习率	-
eval_size	640	整数	输入网络的图片大小	-
weight_save_interval	100	整数	权重文件保存间隔	-
args_options	''	字符串	命令行参数	参考 get_args_parser

推理参数#

超参数	默认值	类型	说明	建议
hyper-parameter	default value	type	note	advice
conf_threshold	0.2	浮点数	置信度阈值	采用默认值

挖掘参数#

超参数	默认值	类型	说明	建议
hyper-parameter	default value	type	note	advice
conf_threshold	0.2	浮点数	置信度阈值	采用默认值

引用#

@inproceedings{song2022vidt,
  title={ViDT: An Efficient and Effective Fully Transformer-based Object Detector},
  author={Song, Hwanjun and Sun, Deqing and Chun, Sanghyuk and Jampani, Varun and Han, Dongyoon and Heo, Byeongho and Kim, Wonjae and Yang, Ming-Hsuan},
  booktitle={International Conference on Learning Representation},
  year={2022}
}