fix chunked prefill

baishihao · baishihao · commit 354cee255308 · 2025-03-12T08:56:05.000Z
diff --git a/lightllm/server/router/model_infer/mode_backend/chunked_prefill/impl.py b/lightllm/server/router/model_infer/mode_backend/chunked_prefill/impl.py
@@ -15,8 +15,9 @@
 
 
 class ChunkedPrefillBackend(ModeBackend):
-    def __init__(self) -> None:
+    def __init__(self, is_multimodal) -> None:
         super().__init__()
+        self.is_multimodal = is_multimodal
         self.forward_step = 0
         args = get_env_start_args()
         self.max_wait_step = args.router_max_wait_tokens
@@ -31,7 +32,7 @@ def decode(self):
         self.forward_batch(kwargs, run_reqs)
         if len(run_reqs) == 0 or self.forward_step % self.max_wait_step == 0:
             # run prefill
-            kwargs, run_reqs = prepare_prefill_inputs(g_infer_context.infer_req_ids)
+            kwargs, run_reqs = prepare_prefill_inputs(g_infer_context.infer_req_ids, self.is_multimodal)
             self.forward_batch(kwargs, run_reqs)
         self.forward_step += 1
         return
diff --git a/lightllm/server/router/model_infer/model_rpc.py b/lightllm/server/router/model_infer/model_rpc.py
@@ -123,13 +123,14 @@ def init_model(self, kvargs):
             is_xgrammar_constraint_mode = False
             is_prefill_node = False
             is_decode_node = False
+        is_multimodal = kvargs.get("enable_multimodal", False)
         # use_dynamic_prompt_cache = kvargs.get("use_dynamic_prompt_cache", False)
         if is_prefill_node:
             self.backend = ContinuesBatchBackendForPrefillNode(self.info_queue, self.mem_queue)
         elif is_decode_node:
             self.backend = ContinuesBatchBackendForDecodeNode(self.info_queue, self.mem_queue)
         elif enable_chunked_prefill:
-            self.backend = ChunkedPrefillBackend()
+            self.backend = ChunkedPrefillBackend(is_multimodal)
         elif use_reward_model:
             self.backend = RewardModelBackend()
         elif return_all_prompt_logprobs: