Merge branch 'main' of https://github.com/BodenmillerGroup/readimc into main

Milad4849 · Milad4849 · commit fcb91a13d022 · 2024-09-09T10:08:33.000+02:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -5,6 +5,12 @@ All notable changes to this project will be documented in this file.
 The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.0.0/),
 and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0.html).
 
+## [0.8.0] - 2024-09-06
+
+Added the option to return raw data for read_slide, read_panorama, read_before_ablation_image, read_after_ablation_image functions.
+
+Fixed a bug where the reading of ablation image functions was returning an extra byte at the end of the DotNet Binary Serialization Record.
+
 ## [0.7.0] - 2023-08-11
 
 Implemented checks for overlapping raw data blocks in MCD file metadata [#6](https://github.com/BodenmillerGroup/readimc/issues/6)
diff --git a/readimc/mcd_file.py b/readimc/mcd_file.py
@@ -174,7 +174,9 @@ def read_acquisition(
         img[:, ys, xs] = np.transpose(data[:, 3:])
         return img
 
-    def read_slide(self, slide: Slide) -> Optional[np.ndarray]:
+    def read_slide(
+        self, slide: Slide, raw: bool = False
+    ) -> Union[np.ndarray, bytes, None]:
         """Reads and decodes a slide image as numpy array using the ``imageio``
         package.
 
@@ -199,22 +201,25 @@ def read_slide(self, slide: Slide) -> Optional[np.ndarray]:
         if data_start_offset == data_end_offset == 0:
             return None
         data_start_offset += 161
+        data_end_offset -= 1
         if data_start_offset >= data_end_offset:
             raise IOError(
                 f"MCD file '{self.path.name}' corrupted: "
                 f"invalid image data offsets for slide {slide.id}"
             )
         try:
             return self._read_image(
-                data_start_offset, data_end_offset - data_start_offset
+                data_start_offset, data_end_offset - data_start_offset, raw
             )
         except Exception as e:
             raise IOError(
                 f"MCD file '{self.path.name}' corrupted: "
                 f"cannot read image for slide {slide.id}"
             ) from e
 
-    def read_panorama(self, panorama: Panorama) -> np.ndarray:
+    def read_panorama(
+        self, panorama: Panorama, raw: bool = False
+    ) -> Union[np.ndarray, bytes, None]:
         """Reads and decodes a panorama image as numpy array using the
         ``imageio`` package.
 
@@ -229,15 +234,18 @@ def read_panorama(self, panorama: Panorama) -> np.ndarray:
                 f"MCD file '{self.path.name}' corrupted: "
                 f"cannot locate image data for panorama {panorama.id}"
             ) from e
+        if data_start_offset == data_end_offset == 0:
+            return None
         data_start_offset += 161
+        data_end_offset -= 1
         if data_start_offset >= data_end_offset:
             raise IOError(
                 f"MCD file '{self.path.name}' corrupted: "
                 f"invalid image data offsets for panorama {panorama.id}"
             )
         try:
             return self._read_image(
-                data_start_offset, data_end_offset - data_start_offset
+                data_start_offset, data_end_offset - data_start_offset, raw
             )
         except Exception as e:
             raise IOError(
@@ -246,8 +254,8 @@ def read_panorama(self, panorama: Panorama) -> np.ndarray:
             ) from e
 
     def read_before_ablation_image(
-        self, acquisition: Acquisition
-    ) -> Optional[np.ndarray]:
+        self, acquisition: Acquisition, raw: bool = False
+    ) -> Union[np.ndarray, bytes, None]:
         """Reads and decodes a before-ablation image as numpy array using the
         ``imageio`` package.
 
@@ -270,6 +278,7 @@ def read_before_ablation_image(
         if data_start_offset == data_end_offset == 0:
             return None
         data_start_offset += 161
+        data_end_offset -= 1
         if data_start_offset >= data_end_offset:
             raise IOError(
                 f"MCD file '{self.path.name}' corrupted: "
@@ -278,7 +287,7 @@ def read_before_ablation_image(
             )
         try:
             return self._read_image(
-                data_start_offset, data_end_offset - data_start_offset
+                data_start_offset, data_end_offset - data_start_offset, raw
             )
         except Exception as e:
             raise IOError(
@@ -288,8 +297,8 @@ def read_before_ablation_image(
             ) from e
 
     def read_after_ablation_image(
-        self, acquisition: Acquisition
-    ) -> Optional[np.ndarray]:
+        self, acquisition: Acquisition, raw: bool = False
+    ) -> Union[np.ndarray, bytes, None]:
         """Reads and decodes a after-ablation image as numpy array using the
         ``imageio`` package.
 
@@ -312,6 +321,7 @@ def read_after_ablation_image(
         if data_start_offset == data_end_offset == 0:
             return None
         data_start_offset += 161
+        data_end_offset -= 1
         if data_start_offset >= data_end_offset:
             raise IOError(
                 f"MCD file '{self.path.name}' corrupted: "
@@ -320,7 +330,7 @@ def read_after_ablation_image(
             )
         try:
             return self._read_image(
-                data_start_offset, data_end_offset - data_start_offset
+                data_start_offset, data_end_offset - data_start_offset, raw
             )
         except Exception as e:
             raise IOError(
@@ -358,12 +368,17 @@ def _read_schema_xml(
             data = mm.read(end_index + len(end_sub_encoded) - start_index)
         return data.decode(encoding=encoding)
 
-    def _read_image(self, data_offset: int, data_size: int) -> np.ndarray:
+    def _read_image(
+        self, data_offset: int, data_size: int, raw: bool = False
+    ) -> Union[np.ndarray, bytes]:
         if self._fh is None:
             raise IOError(f"MCD file '{self.path.name}' has not been opened")
         self._fh.seek(data_offset)
         data = self._fh.read(data_size)
-        return imread(data)
+        if raw:
+            return data
+        else:
+            return imread(data)
 
     def __repr__(self) -> str:
         return str(self._path)
diff --git a/readimc/mcd_parser.py b/readimc/mcd_parser.py
@@ -123,10 +123,10 @@ def _parse_slide(self, slide_elem: ET.Element) -> Slide:
                     if panorama is not None:
                         panorama.acquisitions.append(acquisition)
         for a, b in itertools.combinations(slide.acquisitions, 2):
-            a_start = a.metadata["DataStartOffset"]
-            a_end = a.metadata["DataEndOffset"]
-            b_start = b.metadata["DataStartOffset"]
-            b_end = b.metadata["DataEndOffset"]
+            a_start = int(a.metadata["DataStartOffset"])
+            a_end = int(a.metadata["DataEndOffset"])
+            b_start = int(b.metadata["DataStartOffset"])
+            b_end = int(b.metadata["DataEndOffset"])
             if b_start <= a_start < b_end or b_start < a_end <= b_end:
                 warn(
                     f"Slide {slide.id} corrupted: "