Prefill/Decode 拆机:两个阶段坐在 roofline 的两边

Article 05 让两个阶段勉强共用一台引擎。这一篇要说的是:它俩本来就不该共用 —— prefill 是 compute-bound、decode 是 bandwidth-bound,长上下文还把这条沟越拉越宽。承认了这种 asymmetry,拆机就不再是优化,而是顺着公式来唯一说得通的答案。

2026年5月9日 · 15 分钟 · Pino