Tensor Parallelism 心智模型:从零搭起

把 weight matrix 用两种方式读,就有两种把它切到多 GPU 上的方法。从 transformer prefill 里的一次 matmul,推出 tensor parallelism 的整套心智模型。

2026年4月26日 · 8 分钟 · Pino