varfish-org · tedil · Jan 30, 2025 · Nov 28, 2024 · Dec 16, 2024 · Dec 16, 2024
diff --git a/openapi.schema.yaml b/openapi.schema.yaml
diff --git a/src/annotate/cli.rs b/src/annotate/cli.rs
@@ -0,0 +1,123 @@
+use clap::Args as ClapArgs;
+use strum::{Display, VariantArray};
+
+#[derive(Debug, ClapArgs)]
+#[group(required = true, multiple = true)]
+pub struct Sources {
+    /// Transcript database containing the transcript information.
+    ///
+    /// Pre-built databases are available at https://github.com/varfish-org/mehari-data-tx/releases
+    #[arg(long)]
+    pub transcripts: Option<Vec<String>>,
+
+    /// Frequency database.
+    ///
+    /// The frequency database contains gnomAD frequencies for the variants.
+    /// Pre-built databases are available at TODO
+    #[arg(long)]
+    pub frequencies: Option<Vec<String>>,
+
+    /// ClinVar database.
+    ///
+    /// The ClinVar database contains clinical significance information for the variants.
+    /// Pre-built databases are available at https://github.com/varfish-org/annonars-data-clinvar/releases
+    #[arg(long)]
+    pub clinvar: Option<Vec<String>>,
+}
+
+#[derive(Debug, ClapArgs, Default, Clone)]
+pub struct TranscriptSettings {
+    /// The transcript source.
+    #[arg(long, value_enum, default_value_t = TranscriptSource::Both)]
+    pub transcript_source: TranscriptSource,
+
+    /// Whether to report only the most severe consequence, grouped by gene, transcript, or allele.
+    #[arg(long)]
+    pub report_most_severe_consequence_by: Option<ConsequenceBy>,
+
+    /// Which kind of transcript to pick / restrict to. Default is not to pick at all.
+    ///
+    /// Depending on `--pick-transcript-mode`, if multiple transcripts match the selection,
+    /// either the first one is kept or all are kept.
+    #[arg(long)]
+    pub pick_transcript: Vec<TranscriptPickType>,
+
+    /// Determines how to handle multiple transcripts. Default is to keep all.
+    ///
+    /// When transcript picking is enabled via `--pick-transcript`,
+    /// either keep the first one found or keep all that match.
+    #[arg(long, default_value = "all")]
+    pub pick_transcript_mode: TranscriptPickMode,
+}
+
+#[derive(
+    Debug,
+    Copy,
+    Clone,
+    PartialEq,
+    Eq,
+    PartialOrd,
+    Ord,
+    Display,
+    clap::ValueEnum,
+    VariantArray,
+    parse_display::FromStr,
+)]
+pub enum ConsequenceBy {
+    Gene,
+    Transcript,
+    // or "Variant"?
+    Allele,
+}
+
+#[derive(
+    Debug,
+    Copy,
+    Clone,
+    PartialEq,
+    Eq,
+    PartialOrd,
+    Ord,
+    Display,
+    clap::ValueEnum,
+    VariantArray,
+    parse_display::FromStr,
+)]
+pub enum TranscriptPickType {
+    ManeSelect,
+    ManePlusClinical,
+    Length,
+    EnsemblCanonical,
+    RefSeqSelect,
+    GencodePrimary,
+    Basic,
+}
+
+#[derive(Debug, Copy, Clone, Display, clap::ValueEnum, Default)]
+pub enum TranscriptPickMode {
+    #[default]
+    First,
+    All,
+}
+
+/// Enum that allows to select the transcript source.
+#[derive(
+    Debug,
+    Clone,
+    Copy,
+    PartialEq,
+    Eq,
+    Default,
+    serde::Deserialize,
+    serde::Serialize,
+    clap::ValueEnum,
+)]
+pub enum TranscriptSource {
+    /// ENSEMBL
+    Ensembl,
+    /// RefSeq
+    RefSeq,
+    /// Both
+    #[default]
+    Both,
+}
diff --git a/src/annotate/mod.rs b/src/annotate/mod.rs
@@ -4,6 +4,7 @@ use noodles::vcf::header::FileFormat;
 use noodles::vcf::variant::record::samples::series::value::genotype::Phasing;
 use noodles::vcf::variant::record_buf::samples::sample::value::Genotype;
 
+pub(crate) mod cli;
 pub mod seqvars;
 pub mod strucvars;
 

diff --git a/src/annotate/seqvars/csq.rs b/src/annotate/seqvars/csq.rs
@@ -1,4 +1,9 @@
 //! Compute molecular consequence of variants.
+use super::{
+    ann::{Allele, AnnField, Consequence, FeatureBiotype, FeatureType, Pos, Rank, SoFeature},
+    provider::Provider as MehariProvider,
+};
+use crate::annotate::cli::{ConsequenceBy, TranscriptSource};
 use crate::pbs::txs::{GenomeAlignment, Strand, TranscriptBiotype, TranscriptTag};
 use enumflags2::BitFlags;
 use hgvs::parser::{NoRef, ProteinEdit, UncertainLengthChange};
@@ -14,12 +19,6 @@ use std::cmp::Ordering;
 use std::ops::Range;
 use std::{collections::HashMap, sync::Arc};
 
-use super::{
-    ann::{Allele, AnnField, Consequence, FeatureBiotype, FeatureType, Pos, Rank, SoFeature},
-    provider::Provider as MehariProvider,
-    ConsequenceBy,
-};
-
 /// A variant description how VCF would do it.
 #[derive(Debug, PartialEq, Eq, Clone, Default)]
 pub struct VcfVariant {
@@ -33,28 +32,6 @@ pub struct VcfVariant {
     pub alternative: String,
 }
 
-/// Enum that allows to select the transcript source.
-#[derive(
-    Debug,
-    Clone,
-    Copy,
-    PartialEq,
-    Eq,
-    Default,
-    serde::Deserialize,
-    serde::Serialize,
-    clap::ValueEnum,
-)]
-pub enum TranscriptSource {
-    /// ENSEMBL
-    Ensembl,
-    /// RefSeq
-    RefSeq,
-    /// Both
-    #[default]
-    Both,
-}
-
 /// Configuration for consequence prediction.
 #[derive(Debug, Clone, derive_builder::Builder)]
 #[builder(pattern = "immutable")]
@@ -84,7 +61,7 @@ impl Default for Config {
 pub struct ConsequencePredictor {
     /// The internal transcript provider for locating transcripts.
     #[derivative(Debug = "ignore")]
-    provider: Arc<MehariProvider>,
+    pub(crate) provider: Arc<MehariProvider>,
     /// Assembly mapper for variant consequence prediction.
     #[derivative(Debug = "ignore")]
     mapper: assembly::Mapper,
@@ -1247,10 +1224,10 @@ impl ConsequencePredictor {
 #[cfg(test)]
 mod test {
     use super::*;
+    use crate::annotate::cli::{TranscriptPickType, TranscriptSettings};
     use crate::annotate::seqvars::provider::ConfigBuilder as MehariProviderConfigBuilder;
     use crate::annotate::seqvars::{
         load_tx_db, run_with_writer, Args, AsyncAnnotatedVariantWriter, PathOutput,
-        TranscriptPickType,
     };
     use crate::common::noodles::{open_variant_reader, open_variant_writer, NoodlesVariantReader};
     use csv::ReaderBuilder;
@@ -1729,10 +1706,11 @@ mod test {
                     path_output_vcf: Some(output.as_ref().to_str().unwrap().into()),
                     path_output_tsv: None,
                 },
-                transcript_source: Default::default(),
-                report_most_severe_consequence_by: Some(ConsequenceBy::Allele),
-                pick_transcript: vec![TranscriptPickType::ManeSelect],
-                pick_transcript_mode: Default::default(),
+                transcript_settings: TranscriptSettings {
+                    report_most_severe_consequence_by: Some(ConsequenceBy::Allele),
+                    pick_transcript: vec![TranscriptPickType::ManeSelect],
+                    ..Default::default()
+                },
                 max_var_count: None,
                 hgnc: None,
                 sources: crate::annotate::seqvars::Sources {