一次 forward 怎么塞下很多个 request
很多个用户同时打过来,prompt 长度还都不一样。把一整个 transformer block 拿到一个 flatten 起来的多 request tensor 上跑一遍,看哪些 layer 是白送、哪些得真动手 —— 顺便看一下 TP 这边到底要不要改。
很多个用户同时打过来,prompt 长度还都不一样。把一整个 transformer block 拿到一个 flatten 起来的多 request tensor 上跑一遍,看哪些 layer 是白送、哪些得真动手 —— 顺便看一下 TP 这边到底要不要改。