raphaelsty · bclavie · Dec 22, 2023 · Dec 22, 2023 · Dec 22, 2023 · Dec 22, 2023
diff --git a/docs/api/overview.md b/docs/api/overview.md
@@ -27,6 +27,7 @@
 - [train_colbert](../train/train-colbert)
 - [train_sparse_embed](../train/train-sparse-embed)
 - [train_splade](../train/train-splade)
+- [Multi-GPU training via Accelerator](../train/multi-gpu)
 
 ## utils
 

diff --git a/docs/fine_tune/.pages b/docs/fine_tune/.pages
@@ -3,4 +3,5 @@ nav:
     - colbert.md
     - splade.md
     - sparse_embed.md
+    - multi_gpu.md
 
diff --git a/docs/fine_tune/multi_gpu.md b/docs/fine_tune/multi_gpu.md
@@ -0,0 +1,72 @@
+# Multi-GPU (Partial)
+
+Neural-Cherche is working towards being fully compatible with multiples GPUs training using [Accelerator](https://huggingface.co/docs/accelerate/package_reference/accelerator). At the moment, there is partial compatibility, and we can train every models of neural-cherche using GPUs in most circumstances, although it's not yet fully supported. Here is a tutorial.
+
+```python
+import torch
+from accelerate import Accelerator
+from datasets import Dataset
+from torch.utils.data import DataLoader
+
+from neural_cherche import models, train
+
+if __name__ == "__main__":
+    # We will need to wrap your training loop in a function to avoid multiprocessing issues.
+    accelerator = Accelerator()
+    save_each_epoch = True
+
+    model = models.SparseEmbed(
+        model_name_or_path="distilbert-base-uncased",
+        accelerate=True,
+        device=accelerator.device,
+    ).to(accelerator.device)
+
+    # Optimizer
+    optimizer = torch.optim.AdamW(model.parameters(), lr=3e-5)
+
+    # Dataset creation using HuggingFace Datasets library.
+    dataset = Dataset.from_dict(
+        {
+            "anchors": ["anchor 1", "anchor 2", "anchor 3", "anchor 4"],
+            "positives": ["positive 1", "positive 2", "positive 3", "positive 4"],
+            "negatives": ["negative 1", "negative 2", "negative 3", "negative 4"],
+        }
+    )
+
+    # Convert your dataset to a DataLoader.
+    data_loader = DataLoader(dataset, batch_size=32, shuffle=True)
+
+    # Wrap model, optimizer, and dataloader in accelerator.
+    model, optimizer, data_loader = accelerator.prepare(model, optimizer, data_loader)
+
+    for epoch in range(2):
+        for batch in enumerate(data_loader):
+            # Batch is a triple like (anchors, positives, negatives)
+            anchors, positives, negatives = (
+                batch["anchors"],
+                batch["positives"],
+                batch["negatives"],
+            )
+
+            loss = train.train_sparse_embed(
+                model=model,
+                optimizer=optimizer,
+                anchor=anchors,
+                positive=positives,
+                negative=negatives,
+                threshold_flops=30,
+                accelerator=accelerator,
+            )
+
+        if accelerator.is_main_process and save_each_epoch:
+            unwrapped_model = accelerator.unwrap_model(model)
+            unwrapped_model.save_pretrained(
+                "checkpoint/epoch" + str(epoch),
+            )
+
+    # Save at the end of the training loop
+    # We check to make sure that only the main process will export the model
+    if accelerator.is_main_process:
+        unwrapped_model = accelerator.unwrap_model(model)
+        unwrapped_model.save_pretrained("checkpoint")
+```
diff --git a/neural_cherche/models/base.py b/neural_cherche/models/base.py
@@ -1,3 +1,4 @@
+import json
 import os
 from abc import ABC, abstractmethod
 
@@ -15,6 +16,10 @@ class Base(ABC, torch.nn.Module):
         Path to the model or the model name.
     device
         Device to use for the model. CPU or CUDA.
+    extra_files_to_load
+        List of extra files to load.
+    accelerate
+        Use HuggingFace Accelerate.
     kwargs
         Additional parameters to the model.
     """
@@ -24,6 +29,7 @@ def __init__(
         model_name_or_path: str,
         device: str = None,
         extra_files_to_load: list[str] = [],
+        accelerate: bool = False,
         query_prefix: str = "[Q] ",
         document_prefix: str = "[D] ",
         **kwargs,
@@ -42,6 +48,8 @@ def __init__(
         else:
             self.device = "cpu"
 
+        self.accelerate = accelerate
+
         os.environ["TRANSFORMERS_CACHE"] = "."
         self.model = AutoModelForMaskedLM.from_pretrained(
             model_name_or_path, cache_dir="./", **kwargs
@@ -74,6 +82,31 @@ def __init__(
         self.query_pad_token = self.tokenizer.mask_token
         self.original_pad_token = self.tokenizer.pad_token
 
+    def _encode_accelerate(self, texts: list[str], **kwargs) -> tuple[torch.Tensor]:
+        """Encode sentences with multiples gpus.
+
+        Parameters
+        ----------
+        texts
+            List of sentences to encode.
+
+        References
+        ----------
+        [Accelerate issue.](https://github.com/huggingface/accelerate/issues/97)
+        """
+        encoded_input = self.tokenizer(texts, return_tensors="pt", **kwargs).to(
+            self.device
+        )
+
+        position_ids = (
+            torch.arange(0, encoded_input["input_ids"].size(1))
+            .expand((len(texts), -1))
+            .to(self.device)
+        )
+
+        output = self.model(**encoded_input, position_ids=position_ids)
+        return output.logits, output.hidden_states[-1]
+
     def _encode(self, texts: list[str], **kwargs) -> tuple[torch.Tensor, torch.Tensor]:
         """Encode sentences.
 
@@ -82,6 +115,9 @@ def _encode(self, texts: list[str], **kwargs) -> tuple[torch.Tensor, torch.Tenso
         texts
             List of sentences to encode.
         """
+        if self.accelerate:
+            return self._encode_accelerate(texts, **kwargs)
+
         encoded_input = self.tokenizer.batch_encode_plus(
             texts, return_tensors="pt", **kwargs
         )
@@ -113,3 +149,25 @@ def scores(self, *args, **kwars):
     def save_pretrained(self, path: str):
         """Save model the model."""
         pass
+
+    def save_tokenizer_accelerate(self, path: str) -> None:
+        """Save tokenizer when using accelerate."""
+        tokenizer_config = {
+            k: v for k, v in self.tokenizer.__dict__.items() if k != "device"
+        }
+        tokenizer_config_file = os.path.join(path, "tokenizer_config.json")
+        with open(tokenizer_config_file, "w", encoding="utf-8") as file:
+            json.dump(tokenizer_config, file, ensure_ascii=False, indent=4)
+
+        # dump vocab
+        self.tokenizer.save_vocabulary(path)
+
+        # save special tokens
+        special_tokens_file = os.path.join(path, "special_tokens_map.json")
+        with open(special_tokens_file, "w", encoding="utf-8") as file:
+            json.dump(
+                self.tokenizer.special_tokens_map,
+                file,
+                ensure_ascii=False,
+                indent=4,
+            )
diff --git a/neural_cherche/models/colbert.py b/neural_cherche/models/colbert.py
@@ -20,6 +20,8 @@ class ColBERT(Base):
         Size of the embeddings in output of ColBERT model.
     device
         Device to use for the model. CPU or CUDA.
+    accelerate
+        Use HuggingFace Accelerate.
     kwargs
         Additional parameters to the SentenceTransformer model.
 
@@ -43,7 +45,6 @@ class ColBERT(Base):
     ...     embedding_size=128,
     ...     max_length_query=32,
     ...     max_length_document=350,
-    ...     device="mps",
     ... )
 
     >>> scores = encoder.scores(
@@ -52,9 +53,9 @@ class ColBERT(Base):
     ... )
 
     >>> scores
-    tensor([20.2148, 16.7599, 18.2901], device='mps:0')
+    tensor([22.9325, 19.8296, 20.8019])
 
-    >>> _ = encoder.save_pretrained("checkpoint")
+    >>> _ = encoder.save_pretrained("checkpoint", accelerate=False)
 
     >>> encoder = models.ColBERT(
     ...     model_name_or_path="checkpoint",
@@ -68,7 +69,7 @@ class ColBERT(Base):
     ... )
 
     >>> scores
-    tensor([20.2148, 16.7599, 18.2901])
+    tensor([22.9325, 19.8296, 20.8019])
 
     >>> embeddings = encoder(
     ...     texts=queries,
@@ -95,6 +96,7 @@ def __init__(
         device: str = None,
         max_length_query: int = 32,
         max_length_document: int = 350,
+        accelerate: bool = False,
         query_prefix: str = "[Q] ",
         document_prefix: str = "[D] ",
         **kwargs,
@@ -104,6 +106,7 @@ def __init__(
             model_name_or_path=model_name_or_path,
             device=device,
             extra_files_to_load=["linear.pt", "metadata.json"],
+            accelerate=accelerate,
             query_prefix=query_prefix,
             document_prefix=document_prefix,
             **kwargs,
@@ -285,7 +288,6 @@ def save_pretrained(self, path: str) -> "ColBERT":
         self.model.save_pretrained(path)
         torch.save(self.linear.state_dict(), os.path.join(path, "linear.pt"))
         self.tokenizer.pad_token = self.original_pad_token
-        self.tokenizer.save_pretrained(path)
         with open(os.path.join(path, "metadata.json"), "w") as f:
             json.dump(
                 {
@@ -296,4 +298,8 @@ def save_pretrained(self, path: str) -> "ColBERT":
                 },
                 f,
             )
+        if self.accelerate:
+            self.save_tokenizer_accelerate(path=path)
+        else:
+            self.tokenizer.save_pretrained(path)
         return self
diff --git a/neural_cherche/models/sparse_embed.py b/neural_cherche/models/sparse_embed.py
@@ -97,6 +97,7 @@ def __init__(
         max_length_query: int = 128,
         max_length_document: int = 256,
         device: str = None,
+        accelerate: bool = False,
         query_prefix: str = "[Q] ",
         document_prefix: str = "[D] ",
         **kwargs,
@@ -105,6 +106,7 @@ def __init__(
             model_name_or_path=model_name_or_path,
             device=device,
             extra_files_to_load=["linear.pt", "metadata.json"],
+            accelerate=accelerate,
             query_prefix=query_prefix,
             document_prefix=document_prefix,
             **kwargs,
@@ -218,11 +220,18 @@ def _get_attention(
 
         return self.softmax(attention)
 
-    def save_pretrained(self, path: str):
+    def save_pretrained(
+        self,
+        path: str,
+    ):
         """Save model the model."""
         self.model.save_pretrained(path)
         self.tokenizer.pad_token = self.original_pad_token
-        self.tokenizer.save_pretrained(path)
+
+        if self.accelerate:
+            self.save_tokenizer_accelerate(path)
+        else:
+            self.tokenizer.save_pretrained(path)
         torch.save(self.linear.state_dict(), os.path.join(path, "linear.pt"))
         with open(os.path.join(path, "metadata.json"), "w") as file:
             json.dump(

diff --git a/neural_cherche/models/splade.py b/neural_cherche/models/splade.py
@@ -80,6 +80,7 @@ def __init__(
         max_length_query: int = 128,
         max_length_document: int = 256,
         extra_files_to_load: list[str] = ["metadata.json"],
+        accelerate: bool = False,
         query_prefix: str = "[Q] ",
         document_prefix: str = "[D] ",
         **kwargs,
@@ -88,6 +89,7 @@ def __init__(
             model_name_or_path=model_name_or_path,
             device=device,
             extra_files_to_load=extra_files_to_load,
+            accelerate=accelerate,
             query_prefix=query_prefix,
             document_prefix=document_prefix,
             **kwargs,
@@ -212,7 +214,10 @@ def forward(
 
         return {"sparse_activations": activations["sparse_activations"]}
 
-    def save_pretrained(self, path: str):
+    def save_pretrained(
+        self,
+        path: str,
+    ):
         """Save model the model.
 
         Parameters
@@ -223,7 +228,11 @@ def save_pretrained(self, path: str):
         """
         self.model.save_pretrained(path)
         self.tokenizer.pad_token = self.original_pad_token
-        self.tokenizer.save_pretrained(path)
+
+        if self.accelerate:
+            self.save_tokenizer_accelerate(path)
+        else:
+            self.tokenizer.save_pretrained(path)
 
         with open(os.path.join(path, "metadata.json"), "w") as file:
             json.dump(
@@ -314,15 +323,12 @@ def _update_activations(
     ) -> torch.Tensor:
         """Returns activated tokens."""
         activations = torch.topk(input=sparse_activations, k=k_tokens, dim=1).indices
-
-        # Set value of max sparse_activations which are not in top k to 0.
-        sparse_activations = sparse_activations * torch.zeros(
-            (sparse_activations.shape[0], sparse_activations.shape[1]),
-            dtype=int,
-            device=self.device,
-        ).scatter_(dim=1, index=activations.long(), value=1)
+        zero_tensor = torch.zeros_like(sparse_activations, dtype=int)
+        updated_sparse_activations = sparse_activations * zero_tensor.scatter(
+            dim=1, index=activations.long(), value=1
+        )
 
         return {
             "activations": activations,
-            "sparse_activations": sparse_activations,
+            "sparse_activations": updated_sparse_activations,
         }
diff --git a/neural_cherche/train/train_colbert.py b/neural_cherche/train/train_colbert.py
@@ -10,6 +10,7 @@ def train_colbert(
     positive: list[str],
     negative: list[str],
     in_batch_negatives: bool = False,
+    accelerator=None,
     **kwargs,
 ):
     """Compute the ranking loss and the flops loss for a single step.
@@ -98,7 +99,10 @@ def train_colbert(
 
     loss = losses.Ranking()(**scores)
 
-    loss.backward()
+    if accelerator:
+        accelerator.backward(loss)
+    else:
+        loss.backward()
     optimizer.step()
     optimizer.zero_grad()
 

diff --git a/neural_cherche/train/train_sparse_embed.py b/neural_cherche/train/train_sparse_embed.py
@@ -16,6 +16,7 @@ def train_sparse_embed(
     dense_loss_weight: float = 1.0,
     in_batch_negatives: bool = False,
     threshold_flops: float = 30,
+    accelerator=None,
     **kwargs,
 ):
     """Compute the ranking loss and the flops loss for a single step.
@@ -147,7 +148,10 @@ def train_sparse_embed(
         + flops_loss_weight * flops_loss
     )
 
-    loss.backward()
+    if accelerator:
+        accelerator.backward(loss)
+    else:
+        loss.backward()
     optimizer.step()
     optimizer.zero_grad()