中文 | English
LLM 推理优化涉及从单 kernel 到系统架构的全栈技术。本章覆盖推理专用 kernel(DeepGemm)、解码策略(speculative decoding)、位置编码、批处理策略、以及推理 serving 系统架构。
| Topic | Description |
|---|---|
| DeepGemm | DeepGemm FP8 GEMM 分析: JIT 策略、per-tile scaling、WGMMA |
| Speculative Decoding | 投机解码: EAGLE, Medusa, MTP, 接受概率分析, sglang 实现 |
| Continuous Batching | 连续批处理、动态 batching |
| Position Embedding | RoPE, ALiBi 位置编码 |
| Serving Architecture | 推理 Serving 系统: vLLM, SGLang, PD disaggregation, 调度策略 |
以下内容因历史原因存放在 ch04,但主题属于推理优化: