Megatron

把 article 02 的两种 cut 方式拿到一整个 transformer block 上跑一遍，盯着每一步每张 GPU 上的 shape。先把一种 cut 用到所有 matmul 上 —— 通信爆炸，每个 block 四次 gather。再把两种 cut 配成一对，刚好对上 widen-narrow 的架构节奏，落到每个 block 两次 all-reduce。