| 模型 | L | H | 每头d_k | FFN | 位置编码 | 注意力范围 | Decoder | 参数量 | 预训练 | 擅长任务 |
|---|---|---|---|---|---|---|---|---|---|---|
| ViT-Base/16 | 12 | 768 | 64 | 768→3072→768 | 可学习绝对 | 全局(197×197) | 无 | 86M | ImageNet-21K监督 | 图像分类微调下游 |
| ViT-Large/16 | 24 | 1024 | 64 | 1024→4096→1024 | 可学习绝对 | 全局(197×197) | 无 | 307M | JFT-300M监督 | 高精度分类 |
| DeiT | 12 | 768 | 64 | 768→3072→768 | 可学习绝对 | 全局(198×198) | 无 | 86M | 蒸馏+ImageNet | 数据高效分类 |
| Swin-T | 2+2+6+2 | 96→768 | 32 | 4×H | 相对位置偏置 | 局部窗口7×7/移位 | 无 | 28M | ImageNet监督 | 检测分割分类 |
| MAE | 12+8 | 768 | 64 | 768→3072→768 | sin/cos固定 | 全局(~49) | 有(仅训练,推理丢弃) | 86M(Enc) | MIM像素重建 | 自监督预训练 |
| BEiT | 12 | 768 | 64 | 768→3072→768 | 相对位置偏置 | 全局(196×196) | 无 | 86M | MIM+dVAE token | 自监督预训练 |
| DINO | 12 | 768 | 64 | 768→3072→768 | 可学习绝对 | 全局(197×197) | 无 | 86M | 自监督EMA对比 | 无标签特征学习 |
| CaiT | 24+2 | 768 | 48 | 768→3072→768 | 可学习绝对 | SA全局/CA交叉 | 有(CA,始终使用) | 86M | ImageNet监督 | 深层ViT分类 |
| MobileViT | 混合 | 变化 | C/4 | 2C | 无 | 局部区域内 | 无 | <6M | 监督 | 移动端轻量化 |