Use get_input_embeddings

rahul-tuli · web-flow · commit 224ec40357cc · 2025-10-03T14:06:51.000+05:30
diff --git a/vllm/model_executor/models/llama_eagle3.py b/vllm/model_executor/models/llama_eagle3.py
@@ -249,8 +249,7 @@ def get_input_embeddings(
         multimodal_embeddings: Optional[NestedTensors] = None,
         is_multimodal: Optional[torch.Tensor] = None,
     ) -> torch.Tensor:
-        # The llama3 drafter only processes text embeddings
-        return self.model.embed_tokens(input_ids)
+        return self.model.get_input_embeddings(input_ids)
 
     def forward(
         self,