Merge branch 'main' into do_docs_imgs

DSuveges · web-flow · commit da9fa7c86ad8 · 2023-10-16T10:09:21.000+01:00
diff --git a/config/step/my_v2g.yaml b/config/step/my_v2g.yaml
@@ -10,5 +10,5 @@ liftover_chain_file_path: ${datasets.chain_37_38}
 anderson_path: ${datasets.anderson}
 javierre_path: ${datasets.javierre}
 jung_path: ${datasets.jung}
-thurnman_path: ${datasets.thurnman}
+thurman_path: ${datasets.thurman}
 v2g_path: ${datasets.v2g}
diff --git a/docs/components/datasource/intervals/thurman.md b/docs/components/datasource/intervals/thurman.md
@@ -0,0 +1 @@
+::: otg.datasource.intervals.thurman.IntervalsThurman
diff --git a/src/otg/config.py b/src/otg/config.py
@@ -149,7 +149,7 @@ class V2GStepConfig:
         anderson_path (str): Anderson intervals path.
         javierre_path (str): Javierre intervals path.
         jung_path (str): Jung intervals path.
-        thurnman_path (str): Thurnman intervals path.
+        thurman_path (str): Thurman intervals path.
         liftover_max_length_difference (int): Maximum length difference for liftover.
         max_distance (int): Maximum distance to consider.
         output_path (str): Output V2G path.
@@ -164,7 +164,7 @@ class V2GStepConfig:
     anderson_path: str = MISSING
     javierre_path: str = MISSING
     jung_path: str = MISSING
-    thurnman_path: str = MISSING
+    thurman_path: str = MISSING
     liftover_max_length_difference: int = 100
     max_distance: int = 500_000
     v2g_path: str = MISSING
diff --git a/src/otg/dataset/summary_statistics.py b/src/otg/dataset/summary_statistics.py
@@ -55,7 +55,6 @@ def window_based_clumping(
         self: SummaryStatistics,
         distance: int,
         gwas_significance: float = 5e-8,
-        with_locus: bool = False,
         baseline_significance: float = 0.05,
         locus_collect_distance: int | None = None,
     ) -> StudyLocus:
@@ -70,10 +69,8 @@ def window_based_clumping(
         Returns:
             StudyLocus: Clumped study-locus containing variants based on window.
         """
-        if locus_collect_distance is None:
-            locus_collect_distance = distance
-        # Based on if we want to get the locus different clumping function is called:
-        if with_locus:
+        # If locus collect distance is present, collect locus with the provided distance:
+        if locus_collect_distance:
             clumped_df = WindowBasedClumping.clump_with_locus(
                 self,
                 window_length=distance,
diff --git a/src/otg/datasource/finngen/study_index.py b/src/otg/datasource/finngen/study_index.py
@@ -37,8 +37,8 @@ def from_source(
         Args:
             finngen_studies (DataFrame): FinnGen raw study table
             finngen_release_prefix (str): Release prefix pattern.
-            finngen_sumstat_url_prefix (str): URL prefix for summary statistics location.
-            finngen_sumstat_url_suffix (str): URL prefix suffix for summary statistics location.
+            finngen_summary_stats_url_prefix (str): URL prefix for summary statistics location.
+            finngen_summary_stats_url_suffix (str): URL prefix suffix for summary statistics location.
 
         Returns:
             FinnGenStudyIndex: Parsed and annotated FinnGen study table.
diff --git a/src/otg/datasource/intervals/andersson.py b/src/otg/datasource/intervals/andersson.py
@@ -47,8 +47,7 @@ def parse(
         """Parse Andersson et al. 2014 dataset.
 
         Args:
-            session (Session): session
-            path (str): Path to dataset
+            raw_anderson_df (DataFrame): Raw Andersson et al. dataset
             gene_index (GeneIndex): Gene index
             lift (LiftOverSpark): LiftOverSpark instance
 
diff --git a/src/otg/datasource/intervals/javierre.py b/src/otg/datasource/intervals/javierre.py
@@ -19,15 +19,15 @@ class IntervalsJavierre(Intervals):
     """Interval dataset from Javierre et al. 2016."""
 
     @staticmethod
-    def read_javierre(spark: SparkSession, path: str):
+    def read_javierre(spark: SparkSession, path: str) -> DataFrame:
         """Read Javierre dataset.
 
         Args:
             spark (SparkSession): Spark session
             path (str): Path to dataset
 
         Returns:
-            DataFrame: DataFrame with raw Javierre data
+            DataFrame: Raw Javierre dataset
         """
         return spark.read.parquet(path)
 
@@ -41,8 +41,7 @@ def parse(
         """Parse Javierre et al. 2016 dataset.
 
         Args:
-            session (Session): session
-            path (str): Path to dataset
+            javierre_raw (DataFrame): Raw Javierre data
             gene_index (GeneIndex): Gene index
             lift (LiftOverSpark): LiftOverSpark instance
 
diff --git a/src/otg/datasource/intervals/jung.py b/src/otg/datasource/intervals/jung.py
@@ -19,7 +19,7 @@ class IntervalsJung(Intervals):
     """Interval dataset from Jung et al. 2019."""
 
     @staticmethod
-    def read_jung(spark: SparkSession, path: str):
+    def read_jung(spark: SparkSession, path: str) -> DataFrame:
         """Read jung dataset.
 
         Args:
diff --git a/src/otg/datasource/intervals/thurman.py b/src/otg/datasource/intervals/thurman.py
@@ -15,19 +15,19 @@
     from otg.dataset.gene_index import GeneIndex
 
 
-class IntervalsThurnman(Intervals):
+class IntervalsThurman(Intervals):
     """Interval dataset from Thurman et al. 2012."""
 
     @staticmethod
-    def read_thurnman(spark: SparkSession, path: str):
-        """Read thurnman dataset.
+    def read_thurman(spark: SparkSession, path: str) -> DataFrame:
+        """Read thurman dataset.
 
         Args:
             spark (SparkSession): Spark session
             path (str): Path to dataset
 
         Returns:
-            DataFrame: DataFrame with raw thurnman data
+            DataFrame: DataFrame with raw thurman data
         """
         thurman_schema = t.StructType(
             [
@@ -45,28 +45,28 @@ def read_thurnman(spark: SparkSession, path: str):
 
     @classmethod
     def parse(
-        cls: type[IntervalsThurnman],
-        thurnman_raw: DataFrame,
+        cls: type[IntervalsThurman],
+        thurman_raw: DataFrame,
         gene_index: GeneIndex,
         lift: LiftOverSpark,
     ) -> Intervals:
         """Parse the Thurman et al. 2012 dataset.
 
         Args:
-            thurnman_raw (DataFrame): raw Thurman et al. 2019 dataset
+            thurman_raw (DataFrame): raw Thurman et al. 2019 dataset
             gene_index (GeneIndex): gene index
             lift (LiftOverSpark): LiftOverSpark instance
 
         Returns:
-            Intervals: Interval dataset containing Thurnman et al. 2012 data
+            Intervals: Interval dataset containing Thurman et al. 2012 data
         """
         dataset_name = "thurman2012"
         experiment_type = "dhscor"
         pmid = "22955617"
 
         return cls(
             _df=(
-                thurnman_raw.select(
+                thurman_raw.select(
                     f.regexp_replace(f.col("chrom"), "chr", "").alias("chrom"),
                     "start",
                     "end",
diff --git a/src/otg/v2g.py b/src/otg/v2g.py
@@ -14,7 +14,7 @@
 from otg.datasource.intervals.andersson import IntervalsAndersson
 from otg.datasource.intervals.javierre import IntervalsJavierre
 from otg.datasource.intervals.jung import IntervalsJung
-from otg.datasource.intervals.thurnman import IntervalsThurnman
+from otg.datasource.intervals.thurman import IntervalsThurman
 
 
 @dataclass
@@ -76,8 +76,8 @@ def run(self: V2GStep) -> None:
                 gene_index_filtered,
                 lift,
             ).v2g(vi),
-            IntervalsThurnman.parse(
-                IntervalsThurnman.read_thurnman(self.session, self.thurnman_path),
+            IntervalsThurman.parse(
+                IntervalsThurman.read_thurman(self.session, self.thurman_path),
                 gene_index_filtered,
                 lift,
             ).v2g(vi),
diff --git a/tests/data_samples/thurman_sample.bed8 b/tests/data_samples/thurman_sample.bed8
diff --git a/tests/datasource/intervals/test_thurman.py b/tests/datasource/intervals/test_thurman.py
@@ -0,0 +1,36 @@
+"""Test Thurman."""
+from __future__ import annotations
+
+import pytest
+from pyspark.sql import DataFrame, SparkSession
+
+from otg.common.Liftover import LiftOverSpark
+from otg.dataset.gene_index import GeneIndex
+from otg.datasource.intervals.thurman import IntervalsThurman
+
+
+@pytest.fixture(scope="module")
+def sample_intervals_thurman(spark: SparkSession) -> DataFrame:
+    """Sample Andersson intervals."""
+    return IntervalsThurman.read_thurman(
+        spark, "tests/data_samples/thurman_sample.bed8"
+    )
+
+
+def test_read_thurman(sample_intervals_thurman: DataFrame) -> None:
+    """Test read_jung."""
+    assert isinstance(sample_intervals_thurman, DataFrame)
+
+
+def test_thurman_intervals_from_source(
+    sample_intervals_thurman: DataFrame,
+    mock_gene_index: GeneIndex,
+    liftover_chain_37_to_38: LiftOverSpark,
+) -> None:
+    """Test IntervalsThurman creation with mock data."""
+    assert isinstance(
+        IntervalsThurman.parse(
+            sample_intervals_thurman, mock_gene_index, liftover_chain_37_to_38
+        ),
+        IntervalsThurman,
+    )
diff --git a/tests/datasource/intervals/test_thurnman.py b/tests/datasource/intervals/test_thurnman.py
diff --git a/tests/method/test_window_based_clumping.py b/tests/method/test_window_based_clumping.py
@@ -44,7 +44,9 @@ def test_window_based_clump_with_locus__correctness(
     sample_summary_satistics: SummaryStatistics,
 ) -> None:
     """Test window-based clumping."""
-    clumped = sample_summary_satistics.window_based_clumping(250_000, with_locus=True)
+    clumped = sample_summary_satistics.window_based_clumping(
+        distance=250_000, locus_collect_distance=250_000
+    )
 
     # Asserting the presence of locus key:
     assert "locus" in clumped.df.columns

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+::: otg.datasource.intervals.thurman.IntervalsThurman`