huggingface · echarlaix · Jan 8, 2024 · Oct 17, 2023 · Oct 17, 2023 · Oct 18, 2023
diff --git a/optimum/intel/generation/modeling.py b/optimum/intel/generation/modeling.py
@@ -140,9 +140,7 @@ def prepare_inputs_for_generation(self, input_ids, past_key_values=None, **kwarg
                 past_key_values = self._convert_to_bloom_cache(past_key_values)
 
         position_ids = kwargs.get("position_ids", None)
-
         attention_mask = kwargs.get("attention_mask", None)
-
         if attention_mask is not None and position_ids is None:
             # create position_ids on the fly for batch generation
             position_ids = attention_mask.long().cumsum(-1) - 1
@@ -264,6 +262,7 @@ def forward(
         }
 
         model_type = self.config.model_type.replace("_", "-")
+        has_position_ids = True if model_type in MODEL_TYPES_REQUIRING_POSITION_IDS else False
-        has_position_ids = True if model_type in MODEL_TYPES_REQUIRING_POSITION_IDS else False
+        has_position_ids = model_type in MODEL_TYPES_REQUIRING_POSITION_IDS
+
-        has_position_ids = True if model_type in MODEL_TYPES_REQUIRING_POSITION_IDS else False
+        has_position_ids = model_type in MODEL_TYPES_REQUIRING_POSITION_IDS
+
 
         if self.use_cache:
             if past_key_values is None:
@@ -296,8 +295,24 @@ def forward(
 
             inputs["past_key_values"] = past_key_values
 
-        if position_ids is not None and model_type in MODEL_TYPES_REQUIRING_POSITION_IDS:
-            inputs["position_ids"] = position_ids
+        if has_position_ids and position_ids is not None:
+            inputs.update({"position_ids": position_ids})
+        elif has_position_ids and position_ids is None:
+            seq_length = input_ids.shape[-1]
+            if not self.use_cache:
+                past_key_values_length = 0
+            else:
+                past_key_values_length = (
+                    past_key_values[0].shape[-2]
+                    if model_type.replace("-", "_") in MULTI_QUERY_ATTN_MODELS
+                    else past_key_values[0][1].shape[-2]
+                )
+            position_ids = torch.arange(
+                past_key_values_length, seq_length + past_key_values_length, dtype=torch.long, device=self._device
+            ).unsqueeze(0)
+            inputs.update({"position_ids": position_ids})
+        elif not has_position_ids and position_ids is not None:
+            logger.warning("You miss the position_ids in the inputs")
-        if has_position_ids and position_ids is not None:
-            inputs.update({"position_ids": position_ids})
-        elif has_position_ids and position_ids is None:
-            seq_length = input_ids.shape[-1]
-            if not self.use_cache:
-                past_key_values_length = 0
-            else:
-                past_key_values_length = (
-                    past_key_values[0].shape[-2]
-                    if model_type.replace("-", "_") in MULTI_QUERY_ATTN_MODELS
-                    else past_key_values[0][1].shape[-2]
-                )
-            position_ids = torch.arange(
-                past_key_values_length, seq_length + past_key_values_length, dtype=torch.long, device=self._device
-            ).unsqueeze(0)
-            inputs.update({"position_ids": position_ids})
-        elif not has_position_ids and position_ids is not None:
-            logger.warning("You miss the position_ids in the inputs")
+        if "position_ids" in self.input_names:
+            if position_ids is None:
+                position_ids = ...
+            inputs["position_ids"] = position_ids
 if "attention_mask" in self.input_names or "position_ids" in self.input_names: 
     if attention_mask is not None: 
         attention_mask = np.array(attention_mask) 
     else: 
         attention_mask = np.ones( 
             (input_ids.shape[0], input_ids.shape[1] + past_len), dtype=inputs["input_ids"].dtype 
         ) 
 if "attention_mask" in self.input_names: 
     inputs["attention_mask"] = attention_mask 
 if "position_ids" in self.input_names: 
     if position_ids is not None: 
         position_ids = np.array(position_ids) 
     else: 
         position_ids = np.cumsum(attention_mask, axis=1) - 1 
         position_ids[attention_mask == 0] = 1 
         if past_key_values: 
             position_ids = np.expand_dims(position_ids[:, -1], axis=-1) 
-        if has_position_ids and position_ids is not None:
-            inputs.update({"position_ids": position_ids})
-        elif has_position_ids and position_ids is None:
-            seq_length = input_ids.shape[-1]
-            if not self.use_cache:
-                past_key_values_length = 0
-            else:
-                past_key_values_length = (
-                    past_key_values[0].shape[-2]
-                    if model_type.replace("-", "_") in MULTI_QUERY_ATTN_MODELS
-                    else past_key_values[0][1].shape[-2]
-                )
-            position_ids = torch.arange(
-                past_key_values_length, seq_length + past_key_values_length, dtype=torch.long, device=self._device
-            ).unsqueeze(0)
-            inputs.update({"position_ids": position_ids})
-        elif not has_position_ids and position_ids is not None:
-            logger.warning("You miss the position_ids in the inputs")
+        if "position_ids" in self.input_names:
+            if position_ids is None:
+                position_ids = ...
+            inputs["position_ids"] = position_ids
 if "attention_mask" in self.input_names or "position_ids" in self.input_names: 
     if attention_mask is not None: 
         attention_mask = np.array(attention_mask) 
     else: 
         attention_mask = np.ones( 
             (input_ids.shape[0], input_ids.shape[1] + past_len), dtype=inputs["input_ids"].dtype 
         ) 
  
 if "attention_mask" in self.input_names: 
     inputs["attention_mask"] = attention_mask 
  
 if "position_ids" in self.input_names: 
     if position_ids is not None: 
         position_ids = np.array(position_ids) 
     else: 
         position_ids = np.cumsum(attention_mask, axis=1) - 1 
         position_ids[attention_mask == 0] = 1 
         if past_key_values: 
             position_ids = np.expand_dims(position_ids[:, -1], axis=-1) 
 
         outputs = self.model(**inputs)
 
@@ -307,6 +322,7 @@ def forward(
         else:
             logits = outputs["logits"]
             past_key_values = outputs["past_key_values"] if self.use_cache else None
+
         return CausalLMOutputWithPast(logits=logits, past_key_values=past_key_values)