一次 forward 怎么塞下很多个 request

很多个用户同时打过来,prompt 长度还都不一样。把一整个 transformer block 拿到一个 flatten 起来的多 request tensor 上跑一遍,看哪些 layer 是白送、哪些得真动手 —— 顺便看一下 TP 这边到底要不要改。

2026年5月3日 · 12 分钟 · Pino