在一个 transformer block 中完整走完一遍 Tensor Parallelism

把 article 02 的两种 cut 方式拿到一整个 transformer block 上跑一遍,盯着每一步每张 GPU 上的 shape。先把一种 cut 用到所有 matmul 上 —— 通信爆炸,每个 block 四次 gather。再把两种 cut 配成一对,刚好对上 widen-narrow 的架构节奏,落到每个 block 两次 all-reduce。

2026年4月29日 · 10 分钟 · Pino