| 模型 | L | H | 每头d_k | FFN | Segment Emb | LN位置 | 特殊机制 | 参数量 | 预训练目标 | 擅长任务 |
|---|---|---|---|---|---|---|---|---|---|---|
| BERT-base | 12 | 768 | 64 | 768→3072→768 | 有 | Post-LN | 标准 | 110M | MLM+NSP | 通用NLUQA分类 |
| BERT-large | 24 | 1024 | 64 | 1024→4096→1024 | 有 | Post-LN | 标准 | 340M | MLM+NSP | 高精度NLU |
| RoBERTa | 12 | 768 | 64 | 768→3072→768 | 无 | Post-LN | 动态掩码、大batch、去NSP | 125M | MLM | 通用NLU鲁棒性强 |
| ALBERT | 12 | 768 | 64 | 768→3072→768 | 有 | Post-LN | 因式分解Emb、跨层共享、SOP | 12M | MLM+SOP | 参数高效 |
| DistilBERT | 6 | 768 | 64 | 768→3072→768 | 无 | Post-LN | 知识蒸馏、BERT偶数层 | 66M | MLM蒸馏 | 轻量推理快 |
| SpanBERT | 12 | 768 | 64 | 768→3072→768 | 无 | Post-LN | Span掩码、SBO | 110M | SpanMLM+SBO | QA共指 |
| DeBERTa | 12 | 768 | 64 | 768→3072→768 | 无 | Post-LN | 解耦内容位置注意力、EMD | 140M | MLM | SuperGLUE SOTA |
| Longformer | 12 | 768 | 64 | 768→3072→768 | 无 | Post-LN | 局部窗口+全局CLS | 149M | MLM | 长文档QA长文分类 |
| TinyBERT-4L | 4 | 312 | 26 | 312→1248→312 | 有 | Post-LN | 两阶段蒸馏 | 14.5M | 蒸馏 | 移动端NLU |
| BERT-tiny | 2 | 128 | 64 | 128→512→128 | 有 | Post-LN | 直接预训练无蒸馏 | 4.4M | MLM+NSP | 极轻量边缘部署 |