ORCA 和 chunked prefill:把每次 iteration 的开销摆平
很多 request 同时在跑,结束时间各不相同,有的还带着比一次 decode 大 1000 倍的 prefill。每次 iteration 的开销因此摇摆得厉害。ORCA 那种 iteration-level 调度先收拾一半问题;chunked prefill 再给最大的那次 iteration 封顶,让短任务不被拖在长任务后面。
很多 request 同时在跑,结束时间各不相同,有的还带着比一次 decode 大 1000 倍的 prefill。每次 iteration 的开销因此摇摆得厉害。ORCA 那种 iteration-level 调度先收拾一半问题;chunked prefill 再给最大的那次 iteration 封顶,让短任务不被拖在长任务后面。