Name		Name	Last commit message	Last commit date
parent directory ..
DeepGemm		DeepGemm
continous_batching		continous_batching
position_embedding		position_embedding
speculative_decoding		speculative_decoding
README.md		README.md
README_en.md		README_en.md
serving_architecture.md		serving_architecture.md
serving_architecture_en.md		serving_architecture_en.md

README.md

中文 | English

Inference Optimization

Overview

LLM 推理优化涉及从单 kernel 到系统架构的全栈技术。本章覆盖推理专用 kernel（DeepGemm）、解码策略（speculative decoding）、位置编码、批处理策略、以及推理 serving 系统架构。

Contents

Topic	Description
DeepGemm	DeepGemm FP8 GEMM 分析: JIT 策略、per-tile scaling、WGMMA
Speculative Decoding	投机解码: EAGLE, Medusa, MTP, 接受概率分析, sglang 实现
Continuous Batching	连续批处理、动态 batching
Position Embedding	RoPE, ALiBi 位置编码
Serving Architecture	推理 Serving 系统: vLLM, SGLang, PD disaggregation, 调度策略

交叉引用

以下内容因历史原因存放在 ch04，但主题属于推理优化:

Reference