Fix usage of engine

casper-hansen · casper-hansen · commit 133dd7a7373a · 2023-09-21T13:30:57.000+02:00
diff --git a/awq/modules/fused/attn.py b/awq/modules/fused/attn.py
@@ -219,7 +219,7 @@ def forward(
             xv = xv.view((bsz,) + self.attention_shapes["single_xv_view"])
 
             past_key_value = (xk, xv) if use_cache else None
-            attention_weight = awq_inference_engine.single_query_attention(
+            attention_weight = ft_inference_engine.single_query_attention(
                 xq, # query
                 xk, # key
                 xv, # value