Fix handling of output embeddings in TFGPTJ

damianoamatruda · damianoamatruda · commit 7aba4081ae96 · 2025-01-28T14:58:44.000+01:00
This resolves an issue of output embeddings in
`TFGPTJModelTest.test_save_load_after_resize_token_embeddings` where
resizing token embeddings caused the following error:

```
ValueError: Attempt to convert a value (None) with an unsupported type
(&lt;class 'NoneType'&gt;) to a Tensor.
```
diff --git a/src/transformers/models/gptj/modeling_tf_gptj.py b/src/transformers/models/gptj/modeling_tf_gptj.py
@@ -756,8 +756,14 @@ def __init__(self, config, *inputs, **kwargs):
     def get_output_embeddings(self):
         return self.lm_head
 
-    def set_output_embeddings(self, new_embeddings):
-        self.lm_head = new_embeddings
+    def set_output_embeddings(self, value):
+        self.lm_head = keras.layers.Dense(
+            shape_list(value)[0], kernel_initializer=get_initializer(self.config.initializer_range), name="lm_head"
+        )
+        # in a dense layer the kernel has a shape (last_dim, units), for us (dim, num_tokens)
+        # value has a shape (num_tokens, dim) then needs to be transposed
+        transposed_value = tf.transpose(value)
+        self.lm_head.kernel = tf.Variable(transposed_value)
 
     def prepare_inputs_for_generation(self, inputs, past_key_values=None, use_cache=None, **kwargs):
         token_type_ids = kwargs.get("token_type_ids", None)