Tensor Parallelism 心智模型:从零搭起把 weight matrix 用两种方式读,就有两种把它切到多 GPU 上的方法。从 transformer prefill 里的一次 matmul,推出 tensor parallelism 的整套心智模型。