Dynamically allocate volume size (#3489)

jmsmkn · web-flow · commit 90efa80705c2 · 2024-08-12T14:24:32.000+02:00
Take into account the input and auxiliary data size when assigning the volume size. Also sets the memory limit explicitly and updates SageMaker Shim. See DIAGNijmegen/rse-grand-challenge-admin#309 See DIAGNijmegen/rse-grand-challenge-admin#306
diff --git a/app/config/settings.py b/app/config/settings.py
@@ -1060,12 +1060,6 @@ def sentry_before_send(event, hint):
 COMPONENTS_AMAZON_SAGEMAKER_SUBNETS = os.environ.get(
     "COMPONENTS_AMAZON_SAGEMAKER_SUBNETS", ""
 ).split(",")
-# This was 30 to match SageMaker Batch Inference but more is
-# required for ground truths
-# TODO Make this dynamic https://github.com/DIAGNijmegen/rse-grand-challenge-admin/issues/309
-COMPONENTS_AMAZON_SAGEMAKER_VOLUME_SIZE_GB = int(
-    os.environ.get("COMPONENTS_AMAZON_SAGEMAKER_VOLUME_SIZE_GB", "50")
-)
 COMPONENTS_S3_ENDPOINT_URL = os.environ.get(
     "COMPONENTS_S3_ENDPOINT_URL", AWS_S3_ENDPOINT_URL
 )
diff --git a/app/grandchallenge/components/backends/amazon_sagemaker_base.py b/app/grandchallenge/components/backends/amazon_sagemaker_base.py
@@ -49,6 +49,7 @@ class InstanceType(NamedTuple):
     usd_cents_per_hour: int
     gpus: int = 0
     gpu_type: GPUTypeChoices | None = None
+    nvme_volume_size: int | None = None
 
 
 INSTANCE_OPTIONS = [
@@ -211,6 +212,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=4071,
         gpus=8,
         gpu_type=GPUTypeChoices.A100,
+        nvme_volume_size=8 * 1000,
     ),
     InstanceType(
         name="ml.p3.2xlarge",
@@ -275,6 +277,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=157,
         gpus=1,
         gpu_type=GPUTypeChoices.A10G,
+        nvme_volume_size=250,
     ),
     InstanceType(
         name="ml.g5.2xlarge",
@@ -283,6 +286,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=169,
         gpus=1,
         gpu_type=GPUTypeChoices.A10G,
+        nvme_volume_size=450,
     ),
     InstanceType(
         name="ml.g5.4xlarge",
@@ -291,6 +295,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=227,
         gpus=1,
         gpu_type=GPUTypeChoices.A10G,
+        nvme_volume_size=600,
     ),
     InstanceType(
         name="ml.g5.8xlarge",
@@ -299,6 +304,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=342,
         gpus=1,
         gpu_type=GPUTypeChoices.A10G,
+        nvme_volume_size=900,
     ),
     InstanceType(
         name="ml.g5.12xlarge",
@@ -307,6 +313,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=791,
         gpus=4,
         gpu_type=GPUTypeChoices.A10G,
+        nvme_volume_size=3800,
     ),
     InstanceType(
         name="ml.g5.16xlarge",
@@ -315,6 +322,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=572,
         gpus=1,
         gpu_type=GPUTypeChoices.A10G,
+        nvme_volume_size=1900,
     ),
     InstanceType(
         name="ml.g5.24xlarge",
@@ -323,6 +331,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=1136,
         gpus=4,
         gpu_type=GPUTypeChoices.A10G,
+        nvme_volume_size=3800,
     ),
     InstanceType(
         name="ml.g5.48xlarge",
@@ -331,6 +340,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=2273,
         gpus=8,
         gpu_type=GPUTypeChoices.A10G,
+        nvme_volume_size=2 * 3800,
     ),
     InstanceType(
         name="ml.g4dn.xlarge",
@@ -339,6 +349,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=83,
         gpus=1,
         gpu_type=GPUTypeChoices.T4,
+        nvme_volume_size=125,
     ),
     InstanceType(
         name="ml.g4dn.2xlarge",
@@ -347,6 +358,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=105,
         gpus=1,
         gpu_type=GPUTypeChoices.T4,
+        nvme_volume_size=225,
     ),
     InstanceType(
         name="ml.g4dn.4xlarge",
@@ -355,6 +367,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=168,
         gpus=1,
         gpu_type=GPUTypeChoices.T4,
+        nvme_volume_size=225,
     ),
     InstanceType(
         name="ml.g4dn.8xlarge",
@@ -363,6 +376,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=304,
         gpus=1,
         gpu_type=GPUTypeChoices.T4,
+        nvme_volume_size=900,
     ),
     InstanceType(
         name="ml.g4dn.12xlarge",
@@ -371,6 +385,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=546,
         gpus=4,
         gpu_type=GPUTypeChoices.T4,
+        nvme_volume_size=900,
     ),
     InstanceType(
         name="ml.g4dn.16xlarge",
@@ -379,6 +394,7 @@ class InstanceType(NamedTuple):
         usd_cents_per_hour=607,
         gpus=1,
         gpu_type=GPUTypeChoices.T4,
+        nvme_volume_size=900,
     ),
 ]
 
@@ -548,6 +564,28 @@ def _instance_type(self):
     def usd_cents_per_hour(self):
         return self._instance_type.usd_cents_per_hour
 
+    @property
+    def _max_memory_mb(self):
+        # Reserve 1 GB for the system
+        return (self._instance_type.memory - 1) * 1024
+
+    @property
+    def _required_volume_size_gb(self):
+        required_gb = super()._required_volume_size_gb
+
+        if (
+            self._instance_type.nvme_volume_size
+            and required_gb > self._instance_type.nvme_volume_size
+        ):
+            logger.error(
+                f"Job {self._job_id} likely needs {required_gb} GB but "
+                f"instance only has {self._instance_type.nvme_volume_size} GB. "
+                "Attempting to run the job anyway."
+            )
+            return self._instance_type.nvme_volume_size
+        else:
+            return required_gb
+
     def execute(self, *, input_civs, input_prefixes):
         self._create_invocation_json(
             input_civs=input_civs, input_prefixes=input_prefixes
diff --git a/app/grandchallenge/components/backends/amazon_sagemaker_training.py b/app/grandchallenge/components/backends/amazon_sagemaker_training.py
@@ -60,7 +60,7 @@ def _create_job_boto(self):
             },
             ResourceConfig={
                 # https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ResourceConfig.html
-                "VolumeSizeInGB": settings.COMPONENTS_AMAZON_SAGEMAKER_VOLUME_SIZE_GB,
+                "VolumeSizeInGB": self._required_volume_size_gb,
                 "InstanceType": self._instance_type.name,
                 "InstanceCount": 1,
             },
diff --git a/app/grandchallenge/components/backends/base.py b/app/grandchallenge/components/backends/base.py
@@ -16,6 +16,7 @@
 from django.core.exceptions import SuspiciousFileOperation, ValidationError
 from django.db import transaction
 from django.utils._os import safe_join
+from django.utils.functional import cached_property
 from panimg.image_builders import image_builder_mhd, image_builder_tiff
 
 from grandchallenge.cases.tasks import import_images
@@ -148,6 +149,9 @@ def invocation_environment(self):
             "no_proxy": "amazonaws.com",
             "GRAND_CHALLENGE_COMPONENT_WRITABLE_DIRECTORIES": "/opt/ml/output/data:/opt/ml/model:/opt/ml/input/data/ground_truth/:opt/ml/checkpoints:/tmp",
             "GRAND_CHALLENGE_COMPONENT_POST_CLEAN_DIRECTORIES": "/opt/ml/output/data:/opt/ml/model:/opt/ml/input/data/ground_truth/",
+            "GRAND_CHALLENGE_COMPONENT_MAX_MEMORY_MB": str(
+                self._max_memory_mb
+            ),
         }
         if self._algorithm_model:
             env["GRAND_CHALLENGE_COMPONENT_MODEL"] = (
@@ -159,6 +163,10 @@ def invocation_environment(self):
             )
         return env
 
+    @property
+    def _max_memory_mb(self):
+        return self._memory_limit * 1024
+
     @property
     def compute_cost_euro_millicents(self):
         duration = self.duration
@@ -207,6 +215,41 @@ def _algorithm_model_key(self):
     def _ground_truth_key(self):
         return safe_join(self._auxiliary_data_prefix, "ground-truth.tar.gz")
 
+    @property
+    def _required_volume_size_gb(self):
+        return max(
+            # Factor 2 for decompression and making copies
+            ceil(2 * self._input_size_bytes / settings.GIGABYTE),
+            # Or match what was provided with Batch Inference
+            30,
+        )
+
+    @cached_property
+    def _input_size_bytes(self):
+        inputs_size_bytes = self._get_input_prefix_size_bytes(
+            prefix=self._io_prefix
+        )
+        auxiliary_size_bytes = self._get_input_prefix_size_bytes(
+            prefix=self._auxiliary_data_prefix
+        )
+
+        return inputs_size_bytes + auxiliary_size_bytes
+
+    def _get_input_prefix_size_bytes(self, *, prefix):
+        paginator = self._s3_client.get_paginator("list_objects_v2")
+        pages = paginator.paginate(
+            Bucket=settings.COMPONENTS_INPUT_BUCKET_NAME, Prefix=prefix
+        )
+
+        total_size = 0
+
+        for page in pages:
+            if "Contents" in page:
+                for obj in page["Contents"]:
+                    total_size += obj["Size"]
+
+        return total_size
+
     def _get_key_and_relative_path(self, *, civ, input_prefixes):
         if str(civ.pk) in input_prefixes:
             key = safe_join(
diff --git a/app/tests/components_tests/test_amazon_sagemaker_training_backend.py b/app/tests/components_tests/test_amazon_sagemaker_training_backend.py
@@ -187,7 +187,7 @@ def test_execute(settings):
                     "S3OutputPath": f"s3://grand-challenge-components-outputs//training-outputs/algorithms/job/{pk}"
                 },
                 "ResourceConfig": {
-                    "VolumeSizeInGB": 50,
+                    "VolumeSizeInGB": 30,
                     "InstanceType": "ml.m5.large",
                     "InstanceCount": 1,
                 },
@@ -198,6 +198,7 @@ def test_execute(settings):
                     "no_proxy": "amazonaws.com",
                     "GRAND_CHALLENGE_COMPONENT_WRITABLE_DIRECTORIES": "/opt/ml/output/data:/opt/ml/model:/opt/ml/input/data/ground_truth/:opt/ml/checkpoints:/tmp",
                     "GRAND_CHALLENGE_COMPONENT_POST_CLEAN_DIRECTORIES": "/opt/ml/output/data:/opt/ml/model:/opt/ml/input/data/ground_truth/",
+                    "GRAND_CHALLENGE_COMPONENT_MAX_MEMORY_MB": "7168",
                 },
                 "VpcConfig": {
                     "SecurityGroupIds": [
diff --git a/dockerfiles/web-base/Dockerfile b/dockerfiles/web-base/Dockerfile
@@ -77,7 +77,7 @@ RUN mkdir -p /opt/docker \
 
 ENV PYTHONUNBUFFERED=1\
     AWS_XRAY_SDK_ENABLED=false\
-    COMPONENTS_SAGEMAKER_SHIM_VERSION=0.3.4\
+    COMPONENTS_SAGEMAKER_SHIM_VERSION=0.3.5\
     PATH="/opt/poetry/.venv/bin:/home/django/.local/bin:${PATH}"
 
 RUN mkdir -p /opt/poetry /app /static /opt/sagemaker-shim \
@@ -89,7 +89,7 @@ USER django:django
 # Fetch and install sagemaker shim for shimming containers
 RUN mkdir -p /opt/sagemaker-shim \
     && wget "https://github.com/DIAGNijmegen/rse-sagemaker-shim/releases/download/v${COMPONENTS_SAGEMAKER_SHIM_VERSION}/sagemaker-shim-${COMPONENTS_SAGEMAKER_SHIM_VERSION}-Linux-x86_64.tar.gz" -P /opt/sagemaker-shim/ \
-    && echo "efc462a6efd75140da89cd9311b53ec99f228abe84703e31544972867f44e65d  /opt/sagemaker-shim/sagemaker-shim-${COMPONENTS_SAGEMAKER_SHIM_VERSION}-Linux-x86_64.tar.gz" | shasum -c - || exit 1 \
+    && echo "a0f64b99ffea8faed65a23bf0f52ff1f2a20900ca8bc6a3d13a2ff7eff1d7eb7  /opt/sagemaker-shim/sagemaker-shim-${COMPONENTS_SAGEMAKER_SHIM_VERSION}-Linux-x86_64.tar.gz" | shasum -c - || exit 1 \
     && tar -C /opt/sagemaker-shim/ -xzvf "/opt/sagemaker-shim/sagemaker-shim-${COMPONENTS_SAGEMAKER_SHIM_VERSION}-Linux-x86_64.tar.gz" \
     && rm "/opt/sagemaker-shim/sagemaker-shim-${COMPONENTS_SAGEMAKER_SHIM_VERSION}-Linux-x86_64.tar.gz"
 
diff --git a/poetry.lock b/poetry.lock