Skip to content

Latest commit

 

History

History

README.md

中文 | English

Inference Optimization

Overview

LLM 推理优化涉及从单 kernel 到系统架构的全栈技术。本章覆盖推理专用 kernel(DeepGemm)、解码策略(speculative decoding)、位置编码、批处理策略、以及推理 serving 系统架构。

Contents

Topic Description
DeepGemm DeepGemm FP8 GEMM 分析: JIT 策略、per-tile scaling、WGMMA
Speculative Decoding 投机解码: EAGLE, Medusa, MTP, 接受概率分析, sglang 实现
Continuous Batching 连续批处理、动态 batching
Position Embedding RoPE, ALiBi 位置编码
Serving Architecture 推理 Serving 系统: vLLM, SGLang, PD disaggregation, 调度策略

交叉引用

以下内容因历史原因存放在 ch04,但主题属于推理优化:

Reference