From 17968f93c414e19b3b0678e0b94b0fd3a00e9fa8 Mon Sep 17 00:00:00 2001
From: Chase Clark <18691127+chasemc@users.noreply.github.com>
Date: Thu, 21 Dec 2023 12:04:15 -0600
Subject: [PATCH] Search (#79)

* feat: adds sg class parent to assembly class; gbk outputs

* fix: no mstart when scatter=T

* fix: async +threading option

* feat: bgc search

Also many other updates/functionality
---
 Take an input BGC.md                          |   2 +-
 environment.yml                               |   2 +-
 new_search.py                                 |  88 ------
 new_search2.py                                |  88 ------
 pyproject.toml                                |   1 +
 socialgene/base/compare_protein.py            |   2 +-
 socialgene/base/molbio.py                     | 207 ++++++++++++--
 socialgene/base/socialgene.py                 | 113 ++++----
 socialgene/cli/search/gene_cluster.py         | 255 ++++++++++++++++++
 socialgene/clustermap/serialize.py            |  61 +++--
 .../hmm => compare_gene_clusters}/__init__.py |   0
 .../compare_gene_clusters.py                  |  30 +++
 socialgene/compare_proteins/base.py           | 106 ++++++++
 socialgene/compare_proteins/base_class.py     |  42 ---
 socialgene/compare_proteins/diamond.py        | 140 ++++++++++
 socialgene/compare_proteins/hmm/hmmer.py      |  62 -----
 .../{hmm/scoring.py => hmm_scoring.py}        |  16 +-
 socialgene/compare_proteins/hmmer.py          |  68 +++++
 socialgene/compare_proteins/mmseqs.py         | 166 ++++++++++++
 socialgene/compare_proteins/mmseqs_WIP.py     |  98 -------
 socialgene/hmm/hmmer.py                       |   2 +-
 socialgene/mmseqs/__init__.py                 |   0
 socialgene/mmseqs/create_database.py          |  63 -----
 socialgene/mmseqs/index_database.py           |  51 ----
 socialgene/mmseqs/search.py                   | 106 --------
 socialgene/mmseqs/subset_database.py          |  55 ----
 socialgene/parsers/fasta.py                   |   2 +-
 socialgene/parsers/genbank.py                 |   2 +-
 socialgene/parsers/hmmmodel.py                |   3 +-
 socialgene/scoring/__init__.py                |   0
 socialgene/search/base.py                     | 188 +++++++++----
 socialgene/search/hmmer.py                    | 157 +++++++++--
 socialgene/utils/logging.py                   |   6 +-
 socialgene/utils/ncbi_ftp.py                  |   2 +-
 socialgene/utils/run_subprocess.py            |  30 ++-
 .../python/classes/test_mibig_fasta_parser.py | 114 ++++----
 tests/python/classes/test_mibig_gbk_parser.py |  11 +-
 tests/python/classes/test_socialgene.py       |   2 +-
 ...est_export_protein_loci_assembly_tables.py |   5 +-
 .../compare_proteins/compare_proteins.py      |  48 ++++
 tests/python/compare_proteins/hmm/hmmer.py    |  16 +-
 .../compare_proteins/hmm/test_scoring.py      |  68 +++--
 .../data/compare_proteins/BGC0001848.pickle   | Bin 0 -> 48364 bytes
 .../data/compare_proteins/BGC0001850.pickle   | Bin 0 -> 19983 bytes
 .../compare_proteins/test_CompareDomains.csv  |  33 +++
 .../compare_proteins/test_DiamondBlastp.csv   |  27 ++
 .../test_MMseqsEasySearch.csv                 |  25 ++
 tests/python/parsers/test_fasta.py            |  11 +-
 tests/python/test_autogen.py                  |  26 +-
 49 files changed, 1607 insertions(+), 993 deletions(-)
 delete mode 100644 new_search.py
 delete mode 100644 new_search2.py
 create mode 100644 socialgene/cli/search/gene_cluster.py
 rename socialgene/{compare_proteins/hmm => compare_gene_clusters}/__init__.py (100%)
 create mode 100644 socialgene/compare_gene_clusters/compare_gene_clusters.py
 create mode 100644 socialgene/compare_proteins/base.py
 delete mode 100644 socialgene/compare_proteins/base_class.py
 create mode 100644 socialgene/compare_proteins/diamond.py
 delete mode 100644 socialgene/compare_proteins/hmm/hmmer.py
 rename socialgene/compare_proteins/{hmm/scoring.py => hmm_scoring.py} (91%)
 create mode 100644 socialgene/compare_proteins/hmmer.py
 create mode 100644 socialgene/compare_proteins/mmseqs.py
 delete mode 100644 socialgene/compare_proteins/mmseqs_WIP.py
 delete mode 100644 socialgene/mmseqs/__init__.py
 delete mode 100644 socialgene/mmseqs/create_database.py
 delete mode 100644 socialgene/mmseqs/index_database.py
 delete mode 100644 socialgene/mmseqs/search.py
 delete mode 100644 socialgene/mmseqs/subset_database.py
 delete mode 100644 socialgene/scoring/__init__.py
 create mode 100644 tests/python/compare_proteins/compare_proteins.py
 create mode 100644 tests/python/data/compare_proteins/BGC0001848.pickle
 create mode 100644 tests/python/data/compare_proteins/BGC0001850.pickle
 create mode 100644 tests/python/data/compare_proteins/test_CompareDomains.csv
 create mode 100644 tests/python/data/compare_proteins/test_DiamondBlastp.csv
 create mode 100644 tests/python/data/compare_proteins/test_MMseqsEasySearch.csv

diff --git a/Take an input BGC.md b/Take an input BGC.md
index a57c1ab4..ad7781bc 100644
--- a/Take an input BGC.md	
+++ b/Take an input BGC.md	
@@ -11,7 +11,7 @@
     - max_outdegree (int): HMM model annotations with an outdegree higher than this will be dropped
     - scatter (bool, optional): Choose a random subset of proteins to search that are spread across the length of the input BGC. Defaults to False.
     - bypass (List[str], optional): List of locus tags that will bypass filtering. This is the ID found in a GenBank file "/locus_tag=" field. Defaults to None.
-    - bypass_eid (List[str], optional): Less preferred than `bypass`. List of external protein IDs that will bypass filtering. This is the ID found in a GenBank file "/protein_id=" field. Defaults to None.
+    - protein_id_bypass_list (List[str], optional): Less preferred than `bypass`. List of external protein IDs that will bypass filtering. This is the ID found in a GenBank file "/protein_id=" field. Defaults to None.
 7. Search the database for all proteins that have the same HMM model annotations as the input BGC proteins
     - Output from database is a data frame with columns: ['assembly_uid', 'nucleotide_uid', 'target', 'n_start', 'n_end', 'query']
 8. The initial hits output is filtered based on the following criteria:
diff --git a/environment.yml b/environment.yml
index cd2fdaea..b2c42bbc 100644
--- a/environment.yml
+++ b/environment.yml
@@ -6,7 +6,7 @@ channels:
   - defaults
 
 dependencies:
-  - conda-forge::python==3.10
+  - conda-forge::python==3.12
   - conda-forge::pip>=23.1.2
   - conda-forge::biopython>=1.79
   - conda-forge::numpy
diff --git a/new_search.py b/new_search.py
deleted file mode 100644
index 82ed7502..00000000
--- a/new_search.py
+++ /dev/null
@@ -1,88 +0,0 @@
-# The code is performing a series of operations using the SocialGene package and the SearchDomains
-# class from the socialgene.search.hmmer module. Here is a breakdown of what the code is doing:
-
-from socialgene.base.socialgene import SocialGene
-from socialgene.clustermap.serialize import SerializeToClustermap
-from socialgene.search.hmmer import SearchDomains
-
-input_gbk_path = "/home/chase/Documents/data/mibig/3_1/mibig_gbk_3.1/BGC0001646.gbk"
-# input_gbk_path = "/home/chase/Documents/data/mibig/3_1/mibig_gbk_3.1/BGC0001848.gbk"
-hmm_dir = None
-# hmm_dir = "/home/chase/Downloads/meh/socialgene_per_run/hmm_cache"
-hmm_dir = "/home/chase/Downloads/para/socialgene_per_run/hmm_cache"
-
-a = SocialGene()
-a.parse(input_gbk_path)
-len(a.proteins)
-
-search_object = SearchDomains(
-    gbk_path=input_gbk_path,
-    hmm_dir=hmm_dir,
-    use_neo4j_precalc=True,
-    assemblies_must_have_x_matches=0.4,
-    nucleotide_sequences_must_have_x_matches=0.4,
-    gene_clusters_must_have_x_matches=0.2,
-    break_bgc_on_gap_of=10000,
-    target_bgc_padding=15000,
-)
-self = search_object
-
-search_object.outdegree_table
-
-
-search_object.prioritize_input_proteins(
-    max_domains_per_protein=None,
-    max_outdegree=None,
-    max_query_proteins=None,
-    scatter=False,
-    # loci=["MicB006_2899"]
-    # bypass_eid=["AXA20096.1"],
-)
-
-search_object.outdegree_table
-
-# TODO frac is redundant with the outdegree table
-search_object.search(only_culture_collection=False, frac=0.75)
-
-
-search_object.filter()
-search_object.label_clusters()
-
-
-search_object._bgc_regions_to_sg_object(self._primary_bgc_regions())
-
-_ = self.sg_object.annotate_proteins_with_neo4j(
-    protein_uids=None, annotate_all=True, progress=False
-)
-
-
-df = self._primary_bgc_regions()
-
-
-for i, row in df.iterrows():
-    self.sg_object.assemblies[row["assembly_uid"]].get_locus_by_uid(
-        row["nucleotide_uid"]
-    ).add_bgcs_by_start_end(
-        start=row["n_start"],
-        end=row["n_end"],
-        uid=row["cluster"],
-    )
-
-
-temp = self.input_assembly.loci[self.input_bgc_id]
-
-temp.add_bgcs_by_feature(features=temp.features)
-
-
-self._create_links()
-self._choose_group()
-
-
-z = SerializeToClustermap(
-    sg_object=self.sg_object,
-    bgc_order=list(self.sg_object.assemblies.keys()),
-    link_df=self.link_df,
-    group_df=self.group_df,
-)
-
-z.write("/home/chase/Downloads/clinker-master(2)/clinker-master/clinker/plot/data.json")
diff --git a/new_search2.py b/new_search2.py
deleted file mode 100644
index da1a1ee9..00000000
--- a/new_search2.py
+++ /dev/null
@@ -1,88 +0,0 @@
-import time
-
-from socialgene.clustermap.serialize import SerializeToClustermap
-from socialgene.search.hmmer import SearchDomains
-
-start_time = time.time()
-# input_gbk_path = "/home/chase/Downloads/para/a/GCF_002362315.1_ASM236231v1_genomic.gbff.gz"
-input_gbk_path = "/home/chase/Documents/data/mibig/3_1/mibig_gbk_3.1/BGC0001646.gbk"
-hmm_dir = None
-# hmm_dir = "/home/chase/Downloads/meh/socialgene_per_run/hmm_cache"
-hmm_dir = "/home/chase/Downloads/para/socialgene_per_run/hmm_cache"
-
-
-search_object = SearchDomains(
-    gbk_path=input_gbk_path,
-    hmm_dir=hmm_dir,
-    use_neo4j_precalc=True,
-    assemblies_must_have_x_matches=0.6,
-    nucleotide_sequences_must_have_x_matches=0.6,
-    gene_clusters_must_have_x_matches=0.6,
-    break_bgc_on_gap_of=10000,
-    target_bgc_padding=15000,
-)
-
-
-# search_object.outdegree_table
-
-
-search_object.prioritize_input_proteins(
-    max_domains_per_protein=2,
-    max_outdegree=100000,
-    max_query_proteins=5,
-    scatter=False,
-    # bypass_locus=["MicB006_2899"]
-    # bypass_pid=["AXA20096.1"],
-)
-
-# search_object.outdegree_table
-
-# TODO frac is redundant with the outdegree table
-search_object.search(only_culture_collection=False, frac=0.75)
-
-
-search_object.filter()
-search_object.label_clusters()
-
-
-search_object._bgc_regions_to_sg_object(search_object._primary_bgc_regions())
-
-_ = search_object.sg_object.annotate_proteins_with_neo4j(
-    protein_uids=None, annotate_all=True, progress=False
-)
-
-
-df = search_object._primary_bgc_regions()
-
-
-for i, row in df.iterrows():
-    search_object.sg_object.assemblies[row["assembly_uid"]].get_locus_by_uid(
-        row["nucleotide_uid"]
-    ).add_bgcs_by_start_end(
-        start=row["n_start"],
-        end=row["n_end"],
-        uid=row["cluster"],
-    )
-
-
-temp = search_object.input_assembly.loci[search_object.input_bgc_id]
-temp.add_bgcs_by_feature(features=temp.features)
-
-search_object._create_links()
-search_object._choose_group()
-
-
-z = SerializeToClustermap(
-    sg_object=search_object.sg_object,
-    bgc_order=list(search_object.sg_object.assemblies.keys()),
-    link_df=search_object.link_df,
-    group_df=search_object.group_df,
-)
-
-z.write("/home/chase/Downloads/clinker-master(2)/clinker-master/clinker/plot/data.json")
-print("--- %s seconds ---" % (time.time() - start_time))
-
-# search_object.rich_table(search_object.user_friendly_hit_df())
-
-
-# self = search_object
diff --git a/pyproject.toml b/pyproject.toml
index aa4f907f..280bf8b7 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -64,6 +64,7 @@ sg_get_goterms          = "socialgene.utils.goterms:main"
 # search
 sg_mm_create            = "socialgene.mmseqs.create_database:main"
 sg_mm_search            = "socialgene.mmseqs.search:main"
+sg_search_gc            = "socialgene.cli.search.gene_cluster:main"
 # Modify database
 sgdb_import_classyfire = "socialgene.dbmodifiers.classyfire.import:main"
 
diff --git a/socialgene/base/compare_protein.py b/socialgene/base/compare_protein.py
index 3b981974..a9fc9f85 100644
--- a/socialgene/base/compare_protein.py
+++ b/socialgene/base/compare_protein.py
@@ -3,7 +3,7 @@
 
 import pandas as pd
 
-from socialgene.compare_proteins.hmm.scoring import mod_score
+from socialgene.compare_proteins.hmm_scoring import mod_score
 from socialgene.neo4j.neo4j import Neo4jQuery
 from socialgene.utils.logging import log
 
diff --git a/socialgene/base/molbio.py b/socialgene/base/molbio.py
index 089d8db8..2fa97509 100644
--- a/socialgene/base/molbio.py
+++ b/socialgene/base/molbio.py
@@ -1,6 +1,11 @@
 from collections import OrderedDict
 from uuid import uuid4
 
+from Bio import SeqIO
+from Bio.Seq import Seq
+from Bio.SeqFeature import FeatureLocation, SeqFeature
+from Bio.SeqRecord import SeqRecord
+
 import socialgene.hashing.hashing as hasher
 from socialgene.config import env_vars
 from socialgene.neo4j.neo4j import GraphDriver
@@ -406,6 +411,14 @@ def __init__(
         self.external_id = external_id
         self.domains = domains if domains is not None else set()
 
+    def __eq__(self, other):  # pragma: no cover
+        if not isinstance(other, type(self)):
+            return NotImplemented
+        return self.uid == other.uid
+
+    def __hash__(self):
+        return hash(self.uid)
+
     def all_attributes(self):
         return {
             s: getattr(self, s) for s in sorted(self.__slots__) if hasattr(self, s)
@@ -438,6 +451,21 @@ def add_domains_from_neo4j(self):
         except Exception:
             log.debug(f"Error trying to retrieve domains for {self.uid}")
 
+    def add_sequences_from_neo4j(self):
+        try:
+            with GraphDriver() as db:
+                for i in db.run(
+                    """
+                    MATCH (p1:protein {uid: $uid})
+                    RETURN p1.sequence as sequence
+                    """,
+                    uid=str(self.uid),
+                ):
+                    if x := i.value():
+                        self.sequence = x
+        except Exception:
+            log.debug(f"Error trying to retrieve sequences for {self.uid}")
+
     @property
     def domain_list_sorted_by_mean_envelope_position(self):
         # (ie can't sort a set())
@@ -488,7 +516,7 @@ class Feature(Location):
     """Container class for describing a feature on a locus"""
 
     __slots__ = [
-        "parent_object",
+        "parent",
         "uid",
         "external_id",
         "type",
@@ -506,11 +534,12 @@ class Feature(Location):
         "frameshifted",
         "too_short_partial_abutting_assembly_gap",
         "incomplete",
+        "protein",
     ]
 
     def __init__(
         self,
-        parent_object=None,
+        parent=None,
         uid: str = None,
         external_id: str = None,
         type: str = None,
@@ -570,7 +599,7 @@ def __init__(
           incomplete: A boolean flag indicating whether the feature is incomplete.
         """
         super().__init__(**kwargs)
-        self.parent_object = parent_object
+        self.parent = parent
         self.uid = uid
         self.external_id = external_id
         self.type = type
@@ -590,6 +619,21 @@ def __init__(
             too_short_partial_abutting_assembly_gap
         )
         self.incomplete = incomplete
+        if self.feature_is_protein():
+            sg = None
+            current_object = self
+            for i in range(1, 100):
+                if (
+                    f"{current_object.__class__.__module__}.{current_object.__class__.__name__}"
+                    == "socialgene.base.socialgene.SocialGene"
+                ):
+                    sg = current_object
+                    break
+                else:
+                    if hasattr(current_object, "parent"):
+                        current_object = current_object.parent
+            if sg:
+                self.protein = Protein(uid=self.uid)
 
     def all_attributes(self):
         return {s: getattr(self, s) for s in sorted(self.__slots__) if hasattr(self, s)}
@@ -630,13 +674,13 @@ def __lt__(self, other):
 
 class FeatureCollection:
     __slots__ = [
-        "parent_object",
+        "parent",
         "features",
     ]
 
     def add_feature(self, **kwargs):
         """Add a feature to a locus"""
-        self.features.add(Feature(parent_object=self, **kwargs))
+        self.features.add(Feature(parent=self, **kwargs))
 
     def all_attributes(self):
         return {s: getattr(self, s) for s in sorted(self.__slots__) if hasattr(self, s)}
@@ -659,12 +703,46 @@ def get_feature_by_uid(self, uid):
             if v.uid == uid:
                 return v
 
+    @property
+    def proteins(self):
+        sg = None
+        current_object = self
+        for i in range(1, 100):
+            if (
+                str(type(current_object))
+                == "<class 'socialgene.base.socialgene.SocialGene'>"
+            ):
+                sg = current_object
+                break
+            else:
+                current_object = current_object.parent
+        return {
+            i: sg.proteins.get(i, None)
+            for i in {i.uid for i in self.features}
+            if i in sg.proteins
+        }
+
+    @property
+    def protein_iter(self):
+        for i in self.proteins.values():
+            yield i
+
+    @property
+    def fasta_string_defline_uid(self):
+        for v in self.proteins.values():
+            yield f">{v.uid}\n{v.sequence}\n"
+
+    @property
+    def fasta_string_defline_external_id(self):
+        for v in self.proteins.values():
+            yield f">{v.external_id}\n{v.sequence}\n"
+
 
 class Locus(FeatureCollection):
     """Container holding a set() of genomic features"""
 
     __slots__ = [
-        "parent_object",
+        "parent",
         "features",
         "metadata",
         "external_id",
@@ -672,9 +750,9 @@ class Locus(FeatureCollection):
         "gene_clusters",
     ]
 
-    def __init__(self, parent_object=None, external_id=None):
+    def __init__(self, parent=None, external_id=None):
         super().__init__()
-        self.parent_object = parent_object
+        self.parent = parent
         self.features = set()
         self.metadata = LocusAssemblyMetadata()
         self.external_id = external_id
@@ -682,25 +760,63 @@ def __init__(self, parent_object=None, external_id=None):
         self.gene_clusters = list()
 
     def calc_uid(self):
-        return hasher.hasher(f"{self.parent_object.uid}___{self.external_id}")
+        return hasher.hasher(f"{self.parent.uid}___{self.external_id}")
 
     def add_bgcs_by_feature(self, features, **kwargs):
         if not all([isinstance(i, Feature) for i in features]):
             raise ValueError(
                 f"All features must be of type Feature, not {[type(i) for i in features if not isinstance(i, Feature)]}"
             )
-        self.gene_clusters.append(GeneCluster(features, parent_object=self, **kwargs))
+        self.gene_clusters.append(GeneCluster(features, parent=self, **kwargs))
 
     def add_bgcs_by_start_end(self, start, end, **kwargs):
         features = {i for i in self.features if i.start >= start and i.end <= end}
         if features:
             self.add_bgcs_by_feature(features=features, **kwargs)
 
+    def write_genbank(self, outpath, start=None, end=None):
+        record = SeqRecord(
+            Seq(""),
+            id=self.external_id,
+            name=self.external_id,
+            description="A GenBank file generated by SocialGene.",
+            dbxrefs=[f"Assembly:{self.parent.uid}"],
+        )
+        # Add annotation
+        for feature in self.features_sorted_by_midpoint:
+            if start:
+                if int(feature.start) < int(start):
+                    continue
+            if end:
+                if int(feature.end) > int(end):
+                    continue
+            biofeat = SeqFeature(
+                FeatureLocation(
+                    start=feature.start,
+                    end=feature.end,
+                    strand=feature.strand,
+                ),
+                type=feature.type,
+                qualifiers={
+                    k: v
+                    for k, v in feature.all_attributes().items()
+                    if v and k != "parent"
+                }
+                | {"translation": self.parent.parent.proteins[feature.uid].sequence},
+            )
+            record.features.append(biofeat)
+        record.annotations["molecule_type"] = "DNA"
+        SeqIO.write(
+            record,
+            outpath,
+            "genbank",
+        )
+
 
 class GeneCluster(FeatureCollection):
-    def __init__(self, features, parent_object=None, uid=None, tool=None, **kwargs):
+    def __init__(self, features, parent=None, uid=None, tool=None, **kwargs):
         super().__init__()
-        self.parent_object = parent_object
+        self.parent = parent
         self.features = features
         self.uid = uid
         # self.tool; e.g.antismash, gecco, etc
@@ -708,6 +824,38 @@ def __init__(self, features, parent_object=None, uid=None, tool=None, **kwargs):
         # flexible attributes
         self.__dict__.update(kwargs)
 
+    def write_genbank(self, outpath, sg):
+        record = SeqRecord(
+            Seq(""),
+            id=self.parent.external_id,
+            name=self.parent.external_id,
+            description="A GenBank file generated by SocialGene.",
+            dbxrefs=[f"Assembly:{self.parent.uid}"],
+        )
+        # Add annotation
+        for feature in self.features:
+            biofeat = SeqFeature(
+                FeatureLocation(
+                    start=feature.start,
+                    end=feature.end,
+                    strand=feature.strand,
+                ),
+                type=feature.type,
+                qualifiers={
+                    k: v
+                    for k, v in feature.all_attributes().items()
+                    if v and k != "parent"
+                }
+                | {"translation": sg.proteins[feature.uid].sequence},
+            )
+            record.features.append(biofeat)
+        record.annotations["molecule_type"] = "DNA"
+        SeqIO.write(
+            record,
+            outpath,
+            "genbank",
+        )
+
 
 class Taxonomy:
     "Class is a reserved word so just underscore all ranks to be consistent"
@@ -747,10 +895,19 @@ def __init__(
 class Assembly:
     """Container class holding a dictionary of loci (ie genes/proteins)"""
 
-    __slots__ = ["loci", "taxid", "metadata", "uid", "taxonomy", "name"]
+    __slots__ = [
+        "parent",
+        "loci",
+        "taxid",
+        "metadata",
+        "uid",
+        "taxonomy",
+        "name",
+    ]
 
-    def __init__(self, uid):
+    def __init__(self, uid, parent=None):
         super().__init__()
+        self.parent = parent
         self.uid = uid
         self.loci = {}
         self.taxid = None
@@ -774,7 +931,7 @@ def add_locus(self, external_id: str = None):
         if external_id is None:
             external_id = str(uuid4())
         if external_id not in self.loci:
-            self.loci[external_id] = Locus(parent_object=self, external_id=external_id)
+            self.loci[external_id] = Locus(parent=self, external_id=external_id)
         else:
             log.debug(f"{external_id} already present")
 
@@ -814,6 +971,22 @@ def get_locus_by_uid(self, uid):
             if v.uid == uid:
                 return v
 
+    @property
+    def gene_clusters(self):
+        for locus in self.loci.values():
+            for gene_cluster in locus.gene_clusters:
+                yield gene_cluster
+
+    @property
+    def fasta_string_defline_uid(self):
+        for v in self.loci.values():
+            yield v.fasta_string_defline_uid
+
+    @property
+    def fasta_string_defline_external_id(self):
+        for v in self.loci.values():
+            yield v.fasta_string_defline_external_id
+
 
 class Molbio:
     """Class for inheriting by SocialGene()"""
@@ -853,7 +1026,7 @@ def add_protein(
         if return_uid:
             return temp_protein.uid
 
-    def add_assembly(self, uid: str = None):
+    def add_assembly(self, uid: str = None, parent=None):
         """Add an assembly to a SocialGene object
 
         Args:
@@ -862,6 +1035,6 @@ def add_assembly(self, uid: str = None):
         if uid is None:
             uid = str(uuid4())
         if uid not in self.assemblies:
-            self.assemblies[uid] = Assembly(uid)
+            self.assemblies[uid] = Assembly(uid=uid, parent=parent)
         else:
             log.debug(f"{uid} already present")
diff --git a/socialgene/base/socialgene.py b/socialgene/base/socialgene.py
index 45274728..90ae4779 100644
--- a/socialgene/base/socialgene.py
+++ b/socialgene/base/socialgene.py
@@ -16,7 +16,6 @@
 from socialgene.base.molbio import Molbio
 from socialgene.clustermap.serialize import SerializeToClustermap
 from socialgene.hmm.hmmer import HMMER
-from socialgene.mmseqs.search import search as mmseqs_search
 from socialgene.neo4j.neo4j import GraphDriver, Neo4jQuery
 from socialgene.neo4j.search.basic import search_protein_hash
 from socialgene.parsers.hmmer_parser import HmmerParser
@@ -57,6 +56,11 @@ def get_all_gene_clusters(self):
                 for k in j.gene_clusters:
                     yield k
 
+    @property
+    def protein_iter(self):
+        for i in self.proteins.values():
+            yield i
+
     ########################################
     # Filter
     ########################################
@@ -148,27 +152,6 @@ def annotate_proteins_with_neo4j(
                     self.get_protein_domains_from_db(protein_id_list=protein_id_list)
         return search_result
 
-    def search_with_mmseqs(self, target_database, argstring):
-        with tempfile.NamedTemporaryFile() as temp_path:
-            self.write_fasta(temp_path.name)
-            self.mmseqs_results = mmseqs_search(
-                fasta_path=temp_path.name,
-                target_database=target_database,
-                argstring=argstring,
-            )
-
-    def compare_to_another_sg_object(sg1, sg2, argstring=""):
-        with tempfile.TemporaryDirectory() as tmpdirname:
-            sg1fa_path = Path(tmpdirname, "sg1.faa")
-            sg2fa_path = Path(tmpdirname, "sg2.faa")
-            sg1.write_fasta(sg1fa_path)
-            sg2.write_fasta(sg2fa_path)
-            return mmseqs_search(
-                fasta_path=str(sg1fa_path),
-                target_database=str(sg2fa_path),
-                argstring=argstring,
-            )
-
     def annotate(
         self, use_neo4j_precalc: bool = False, neo4j_chunk_size: int = 1000, **kwargs
     ):
@@ -217,7 +200,7 @@ def annotate_proteins_with_hmmscan(
                 cpus = 1
         # create a list of proteins as FASTA
         temp1 = [
-            self.single_protein_to_fasta(i)
+            self.proteins[i].fasta_string_defline_uid
             for i in protein_id_list
             if self.proteins[i].sequence
         ]
@@ -231,18 +214,35 @@ def annotate_proteins_with_hmmscan(
                 input="\n".join(temp1).encode(),
                 domtblout_path=temp_path.name,
                 overwrite=True,
+                cpus=cpus,
                 **kwargs,
             )
             # parse the resulting domtblout file, saving results to the class proteins/domains
             self.parse_hmmout(temp_path.name, hmmsearch_or_hmmscan="hmmscan")
 
+    def add_sequences_from_neo4j(self):
+        try:
+            with GraphDriver() as db:
+                for i in db.run(
+                    """
+                    MATCH (p1:protein)
+                    WHERE p1.uid in $uid
+                    RETURN p1.uid as uid, p1.sequence as sequence
+                    """,
+                    uid=[i.uid for i in self.protein_iter],
+                ):
+                    if i["uid"] in self.proteins:
+                        self.proteins[i["uid"]].sequence = i["sequence"]
+        except Exception:
+            log.debug(f"Error trying to retrieve domains for {self.uid}")
+
     def hydrate_from_proteins(self):
         """Given a SocialGene object with proteins, retrieve from a running Neo4j database all locus and asssembly info for those proteins"""
         for result in Neo4jQuery.query_neo4j(
             cypher_name="retrieve_protein_locations",
             param=list(self.proteins.keys()),
         ):
-            self.add_assembly(result["assembly"])
+            self.add_assembly(uid=result["assembly"], parent=self)
             for locus in result["loci"]:
                 _ = self.assemblies[result["assembly"]].add_locus(
                     external_id=locus["locus"]
@@ -275,7 +275,7 @@ def fill_given_locus_range(self, locus_uid, start, end):
             raise ValueError("No assembly found in database")
         else:
             assembly_uid = assembly_uid.value()
-        self.add_assembly(assembly_uid)
+        self.add_assembly(uid=assembly_uid, parent=self)
         with GraphDriver() as db:
             res = db.run(
                 """
@@ -401,49 +401,42 @@ def filter_proteins(self, hash_list: List):
         """
         return ((k, v) for k, v in self.proteins.items() if k in hash_list)
 
+    @property
+    def fasta_string_defline_uid(self):
+        for v in self.proteins.values():
+            yield f">{v.uid}\n{v.sequence}\n"
+
+    @property
+    def fasta_string_defline_external_id(self):
+        for v in self.proteins.values():
+            yield f">{v.external_id}\n{v.sequence}\n"
+
     def write_fasta(
         self,
         outpath,
-        hash_list: List = None,
         external_id: bool = False,
         **kwargs,
     ):
-        """Write proteins to a FASTA file
+        """Write all proteins to a FASTA file
 
         Args:
             outpath (str): path of file that FASTA entries will be appended to
-            hash_list (List, optional): hash id of the protein(s) to export. Defaults to None.
             external_id (bool, optional): Write protein identifiers as the hash (True) or the original identifier (False). Defaults to False.
             **kwargs: see print(open_write.__doc__)
         """
 
         with open_write(filepath=outpath, **kwargs) as handle:
             counter = 0
-            if hash_list:
-                temp_iter = self.filter_proteins(hash_list)
+            if external_id:
+                fasta_gen = self.fasta_string_defline_external_id
             else:
-                temp_iter = self.proteins.items()
-            for k, v in temp_iter:
-                if v.sequence is not None:
-                    counter += 1
-                    if external_id:
-                        handle.writelines(v.fasta_string_defline_external_id)
-                    else:
-                        handle.writelines(v.fasta_string_defline_uid)
+                fasta_gen = self.fasta_string_defline_uid
+            for i in fasta_gen:
+                counter += 1
+                handle.writelines(i)
 
         log.info(f"Wrote {str(counter)} proteins to {outpath}")
 
-    def single_protein_to_fasta(self, uid):
-        """Create FASTA strings
-
-        Args:
-            uid (str): hash id of protein to export
-
-        Returns:
-            str: fasta string
-        """
-        return f">{self.proteins[uid].uid}\n{self.proteins[uid].sequence}"
-
     def write_n_fasta(self, outdir, n_splits=1, **kwargs):
         """
         The function `write_n_fasta` exports protein sequences split into multiple fasta files.
@@ -457,6 +450,7 @@ def write_n_fasta(self, outdir, n_splits=1, **kwargs):
         than. Defaults to 1
         """
 
+        # this can be done with itertools.batched in python 3.12
         def split(a, n):
             # https://stackoverflow.com/a/2135920
             k, m = divmod(len(a), n)
@@ -464,16 +458,17 @@ def split(a, n):
                 a[i * k + min(i, m) : (i + 1) * k + min(i + 1, m)] for i in range(n)
             )
 
-        protein_list = split(list(self.proteins.keys()), n_splits)
+        protein_list = split(
+            [value for key, value in sorted(self.proteins.items(), reverse=False)],
+            n_splits,
+        )
         counter = 1
         for protein_group in protein_list:
             with open_write(
                 Path(outdir, f"fasta_split_{counter}.faa"), **kwargs
             ) as handle:
-                for k, v in {
-                    key: self.proteins.get(key) for key in sorted(protein_group)
-                }.items():
-                    handle.writelines(f">{k}\n{v.sequence}\n")
+                for i in protein_group:
+                    handle.writelines(f">{i.uid}\n{i.sequence}\n")
             counter += 1
 
     def _merge_proteins(self, sg_object):
@@ -534,7 +529,7 @@ def write_clustermap_json(
     ):
         raise NotImplementedError("write_clustermap_json needs to be updated")
         # TODO: Add link_df to clustermap
-        cmap = SerializeToClustermap(bgc_order=gene_cluster_order, sg_object=self)
+        cmap = SerializeToClustermap(sorted_bgcs=gene_cluster_order, sg_object=self)
         cmap.write(outpath=outpath)
 
     def write_genbank(self, outpath):
@@ -544,8 +539,8 @@ def write_genbank(self, outpath):
                     Seq(""),
                     id=locus.external_id,
                     name=locus.external_id,
-                    description="An example GenBank file generated by BioPython",
-                    dbxrefs=[f"Assembly:{locus.parent_object.uid}"],
+                    description="A GenBank file generated by SocialGene.",
+                    dbxrefs=[f"Assembly:{locus.parent.uid}"],
                 )
                 # Add annotation
                 for feature in locus.features:
@@ -559,7 +554,7 @@ def write_genbank(self, outpath):
                         qualifiers={
                             k: v
                             for k, v in feature.all_attributes().items()
-                            if v and k != "parent_object"
+                            if v and k != "parent"
                         }
                         | {"translation": self.proteins[feature.uid].sequence},
                     )
@@ -646,7 +641,7 @@ def table_locus_to_protein(self, **kwargs):
                 for feature in temp_list:
                     if feature.feature_is_protein():
                         yield (
-                            feature.parent_object.uid,
+                            feature.parent.uid,
                             feature.uid,
                             feature.external_id,
                             feature.locus_tag,
diff --git a/socialgene/cli/search/gene_cluster.py b/socialgene/cli/search/gene_cluster.py
new file mode 100644
index 00000000..3b74b08a
--- /dev/null
+++ b/socialgene/cli/search/gene_cluster.py
@@ -0,0 +1,255 @@
+import argparse
+from pathlib import Path
+from typing import List
+
+from socialgene.clustermap.serialize import SerializeToClustermap
+from socialgene.config import env_vars
+from socialgene.search.hmmer import SearchDomains
+from socialgene.utils.logging import log
+
+env_vars["NEO4J_URI"] = "bolt://localhost:7687"
+
+parser = argparse.ArgumentParser(
+    description="Search a SocialGene database for input gene clusters similar to an input gene cluster"
+)
+
+
+parser.add_argument(
+    "--gbk_path",
+    metavar="input_filepath",
+    type=Path,
+    help="Path to the query gene cluster GenBank-format file",
+    required=True,
+)
+parser.add_argument(
+    "--hmm_dir",
+    metavar="hmm_directory",
+    type=str,
+    help="Path to the directory containing HMM files created by SocialGene's Nextflow workflow",
+    required=True,
+)
+parser.add_argument(
+    "--assemblies_must_have_x_matches",
+    metavar="fraction",
+    type=float,
+    default=0.6,
+    help="Minimum query proteins an assembly must have (<1 == fraction of query proteins)",
+)
+parser.add_argument(
+    "--nucleotide_sequences_must_have_x_matches",
+    metavar="fraction",
+    type=float,
+    default=0.6,
+    help="Minimum query proteins a nucleotide sequence must have (<1 == fraction of query proteins)",
+)
+parser.add_argument(
+    "--gene_clusters_must_have_x_matches",
+    metavar="fraction",
+    type=float,
+    default=0.6,
+    help="Minimum query proteins a target gene cluster sequence must have (<1 == fraction of query proteins)",
+)
+parser.add_argument(
+    "--break_bgc_on_gap_of",
+    metavar="value",
+    type=int,
+    default=10000,
+    help="Split gene clusters if gap between matched proteins is greater than this value",
+)
+parser.add_argument(
+    "--target_bgc_padding",
+    metavar="value",
+    type=int,
+    default=2000,
+    help="Pull proteins x-nucleotides on either side of target gene cluster",
+)
+parser.add_argument(
+    "--max_domains_per_protein",
+    metavar="value",
+    type=int,
+    default=3,
+    help="Maximum number of domains per protein used in search; 0 for all",
+)
+parser.add_argument(
+    "--max_outdegree",
+    metavar="value",
+    type=int,
+    help="Maximum outdegree a query domain can have; 0 for all",
+)
+parser.add_argument(
+    "--max_query_proteins",
+    metavar="value",
+    type=int,
+    default=10,
+    help="Maximum number of query proteins to use in search; 0 for all",
+)
+parser.add_argument(
+    "--scatter",
+    metavar="value",
+    help="Pull proteins from across the width of the input gene cluster",
+    action=argparse.BooleanOptionalAction,
+    default=False,
+)
+parser.add_argument(
+    "--locus_tag_bypass_list",
+    metavar="value",
+    nargs="+",
+    help="List of locus tags to bypass search filter",
+)
+parser.add_argument(
+    "--protein_id_bypass_list",
+    metavar="value",
+    nargs="+",
+    help="List of protein IDs to bypass search filter",
+)
+parser.add_argument(
+    "--only_culture_collection",
+    metavar="value",
+    help="Only search genomes from culture collections",
+    action=argparse.BooleanOptionalAction,
+    default=False,
+)
+parser.add_argument(
+    "--frac",
+    metavar="fraction",
+    type=float,
+    default=0.75,
+    help="Fraction of domains that equals a match in the initial database scan",
+)
+parser.add_argument(
+    "--run_async",
+    metavar="value",
+    help="Run the initial database scan using asynchronously",
+    action=argparse.BooleanOptionalAction,
+    default=True,
+)
+parser.add_argument(
+    "--analyze_with",
+    metavar="value",
+    type=str,
+    default="hmmer",
+    help="Tool to use for reciprocal best hit comparison; one of 'hmmer', 'blastp', 'mmseqs2'",
+)
+args = parser.parse_args()
+
+
+def search_bgc(
+    gbk_path: str,
+    hmm_dir: str = None,
+    use_neo4j_precalc: bool = True,
+    assemblies_must_have_x_matches: float = 0.9,
+    nucleotide_sequences_must_have_x_matches: float = 0.9,
+    gene_clusters_must_have_x_matches: float = 0.9,
+    break_bgc_on_gap_of: int = 10000,
+    target_bgc_padding: int = 20000,
+    max_domains_per_protein: float = None,
+    max_outdegree: int = None,
+    max_query_proteins: int = 5,
+    scatter: bool = False,
+    locus_tag_bypass_list: List[str] = None,
+    protein_id_bypass_list: List[str] = None,
+    only_culture_collection: bool = False,
+    frac: float = 0.75,
+    run_async: bool = False,
+    analyze_with: str = "hmmer",
+):
+    log.info(f"Running search with args: {locals()}")
+    search_object = SearchDomains(
+        gbk_path=gbk_path,
+        hmm_dir=hmm_dir,
+        use_neo4j_precalc=use_neo4j_precalc,
+        assemblies_must_have_x_matches=assemblies_must_have_x_matches,
+        nucleotide_sequences_must_have_x_matches=nucleotide_sequences_must_have_x_matches,
+        gene_clusters_must_have_x_matches=gene_clusters_must_have_x_matches,
+        break_bgc_on_gap_of=break_bgc_on_gap_of,
+        target_bgc_padding=target_bgc_padding,
+    )
+    search_object.outdegree_table
+    search_object.prioritize_input_proteins(
+        max_domains_per_protein=max_domains_per_protein,
+        max_outdegree=max_outdegree,
+        max_query_proteins=max_query_proteins,
+        scatter=scatter,
+        locus_tag_bypass_list=locus_tag_bypass_list,
+        protein_id_bypass_list=protein_id_bypass_list,
+    )
+    search_object.outdegree_table
+    search_object.search(
+        only_culture_collection=only_culture_collection, frac=frac, run_async=run_async
+    )
+    # filters assemblies and nucleotide seqs that fall below threshold % of query proteins
+    search_object.filter()
+    # labels clusters with a unique id based on break_bgc_on_gap_of
+    search_object.label_clusters()
+    df = search_object._primary_bgc_regions()
+    df["n_start"] = df["n_start"] - search_object.target_bgc_padding
+    df["n_end"] = df["n_end"] + search_object.target_bgc_padding
+    search_object._bgc_regions_to_sg_object(df)
+    _ = search_object.sg_object.annotate_proteins_with_neo4j(
+        protein_uids=None, annotate_all=True, progress=False
+    )
+    ########
+    # add bgcs as gene_clusters to the locus objects
+    for i, row in df.iterrows():
+        search_object.sg_object.assemblies[row["assembly_uid"]].get_locus_by_uid(
+            row["nucleotide_uid"]
+        ).add_bgcs_by_start_end(
+            start=row["n_start"] - search_object.target_bgc_padding,
+            end=row["n_end"] + search_object.target_bgc_padding,
+            uid=row["cluster"],
+        )
+    # add input bgc as gene_cluster to the locus objects
+    if analyze_with == "hmmer":
+        search_object.sg_object.annotate_proteins_with_neo4j(annotate_all=True)
+    else:
+        search_object.sg_object.add_sequences_from_neo4j()
+    search_object._create_links(
+        tool=analyze_with, argstring="--fast --max-hsps 1", cpus=1
+    )
+    search_object._choose_group()
+    search_object._rank_order_bgcs()
+    assemblies = list(
+        dict.fromkeys([i.parent.parent for i in search_object.sorted_bgcs])
+    )
+    assemblies = [search_object.input_assembly] + assemblies
+    z = SerializeToClustermap(
+        sg_object=search_object.sg_object,
+        sorted_bgcs=[search_object.input_bgc] + search_object.sorted_bgcs,
+        link_df=search_object.link_df,
+        group_df=search_object.group_df,
+    )
+    z.write("/Users/chase/Documents/test/cmap/clinker/clinker/plot/data.json")
+
+
+def main():
+    args = parser.parse_args()
+
+    if args.max_domains_per_protein == 0:
+        args.max_domains_per_protein = None
+    if args.max_outdegree == 0:
+        args.max_outdegree = None
+    if args.max_query_proteins == 0:
+        args.max_query_proteins = None
+    _ = search_bgc(
+        gbk_path=args.gbk_path,
+        hmm_dir=args.hmm_dir,
+        use_neo4j_precalc=True,
+        assemblies_must_have_x_matches=args.assemblies_must_have_x_matches,
+        nucleotide_sequences_must_have_x_matches=args.nucleotide_sequences_must_have_x_matches,
+        gene_clusters_must_have_x_matches=args.gene_clusters_must_have_x_matches,
+        break_bgc_on_gap_of=args.break_bgc_on_gap_of,
+        target_bgc_padding=args.target_bgc_padding,
+        max_domains_per_protein=args.max_domains_per_protein,
+        max_outdegree=args.max_outdegree,
+        max_query_proteins=args.max_query_proteins,
+        scatter=args.scatter,
+        locus_tag_bypass_list=args.locus_tag_bypass_list,
+        protein_id_bypass_list=args.protein_id_bypass_list,
+        only_culture_collection=args.only_culture_collection,
+        frac=args.frac,
+        run_async=args.run_async,
+    )
+
+
+if __name__ == "__main__":
+    main()
diff --git a/socialgene/clustermap/serialize.py b/socialgene/clustermap/serialize.py
index ca7d8f32..467527fd 100644
--- a/socialgene/clustermap/serialize.py
+++ b/socialgene/clustermap/serialize.py
@@ -8,10 +8,9 @@ class SerializeToClustermap:
     Take a sg_object and serialize all BGC object to clustermap.js format
     """
 
-    def __init__(self, sg_object, bgc_order, link_df, group_df):
+    def __init__(self, sg_object, sorted_bgcs, link_df, group_df):
         self._sg_object = sg_object
-        self._bgc_order = bgc_order
-        self._input_assembly = self._sg_object.assemblies[bgc_order[0]]
+        self.sorted_bgcs = sorted_bgcs
         self._link_df = link_df
         self._group_df = group_df
         self._reset()
@@ -26,9 +25,12 @@ def _flatten_list(x):
 
     def _get_uid(self, obj=None):
         # increment then return a uid as a string
-        self._uid += 1
-        self._uid_dict[str(self._uid)] = obj
-        return str(self._uid)
+        if obj in self._uid_dict:
+            return str(self._uid_dict[obj])
+        else:
+            self._uid += 1
+            self._uid_dict[str(self._uid)] = obj
+            return str(self._uid)
 
     def _build(self):
         self._reset()
@@ -39,11 +41,13 @@ def _clusters(self):
         return {
             "clusters": [
                 {
-                    "uid": self._get_uid(obj=self._sg_object.assemblies[k]),
-                    "name": self._sg_object.assemblies[k].name,
-                    "loci": self._loci(self._sg_object.assemblies[k]),
+                    "uid": self._get_uid(obj=assembly),
+                    "name": assembly.uid,
+                    "loci": self._loci([i for i in assembly.gene_clusters]),
                 }
-                for k in self._bgc_order
+                for assembly in list(
+                    dict.fromkeys([i.parent.parent for i in self.sorted_bgcs])
+                )
             ]
         }
 
@@ -73,14 +77,12 @@ def _locus(self, locus_name, locus_obj):
             "end": max((i.end for i in locus_obj.features)),
         }
 
-    def _loci(self, assembly_obj):
+    def _loci(self, loci):
         # return [
         #     self._locus(locus_name=k, locus_obj=v) for k, v in assembly_obj.loci.items()
         # ]
         return [
-            self._locus(locus_name=k, locus_obj=gc)
-            for k, v in assembly_obj.loci.items()
-            for gc in v.gene_clusters
+            self._locus(locus_name=gc.parent.external_id, locus_obj=gc) for gc in loci
         ]
 
     def _create_groups_dict(self):
@@ -92,14 +94,9 @@ def _create_groups_dict(self):
             with keys "uid", "label", and "genes". e.g. {"groups": [{"uid": "1", "label": "group1", "genes": ["1", "2", "3"]}]
         """
         # Look in the clustermap uid dict (feature_to_cmap_uid_dict) for the cmap uid of each feature (query & target) in each group
-        self._group_df["query_cmap_uid"] = self._group_df["query"].apply(
-            lambda x: self.feature_to_cmap_uid_dict.get(x)
-        )
-        self._group_df["target_cmap_uid"] = self._group_df["target"].apply(
-            lambda x: self.feature_to_cmap_uid_dict.get(x)
-        )
+        log.info("Creating clustermap.js links")
         groups = (
-            self._group_df.groupby(["target_cmap_uid", "target"])["query_cmap_uid"]
+            self._group_df.groupby(["query_feature"])["target_feature"]
             .apply(list)
             .reset_index()
         )
@@ -107,10 +104,11 @@ def _create_groups_dict(self):
             "groups": [
                 {
                     "uid": self._get_uid(
-                        obj=f"{i.target.external_id} {i.target.description}"
+                        obj=f"{i['query_feature'].external_id} {i['query_feature'].description}"
                     ),
-                    "label": f"{i.target.external_id} {i.target.description}",
-                    "genes": i.query_cmap_uid,
+                    "label": f"{i['query_feature'].external_id} {i['query_feature'].description}",
+                    "genes": [self.feature_to_cmap_uid_dict[i["query_feature"]]]
+                    + [self.feature_to_cmap_uid_dict[i] for i in i.target_feature],
                 }
                 for x, i in groups.iterrows()
             ]
@@ -124,18 +122,18 @@ def _create_links_dict(self):
                 {
                     "uid": self._get_uid(obj=None),
                     "target": {
-                        "uid": self.feature_to_cmap_uid_dict[i["target"]],
-                        "name": self.feature_to_cmap_uid_dict[i["target"]],
+                        "uid": self.feature_to_cmap_uid_dict[i["target_feature"]],
+                        "name": self.feature_to_cmap_uid_dict[i["target_feature"]],
                     },
                     "query": {
-                        "uid": self.feature_to_cmap_uid_dict[i["query"]],
-                        "name": self.feature_to_cmap_uid_dict[i["query"]],
+                        "uid": self.feature_to_cmap_uid_dict[i["query_feature"]],
+                        "name": self.feature_to_cmap_uid_dict[i["query_feature"]],
                     },
-                    "identity": i.score,
+                    "identity": i.pident if "pident" in i else i.score,
                 }
                 for x, i in self._link_df.iterrows()
-                if i["query"] in self.feature_to_cmap_uid_dict
-                and i["target"] in self.feature_to_cmap_uid_dict
+                if i["query_feature"] in self.feature_to_cmap_uid_dict
+                and i["target_feature"] in self.feature_to_cmap_uid_dict
             ]
         }
 
@@ -145,4 +143,5 @@ def write(self, outpath):
             json.dump(
                 self._build(),
                 outfile,
+                indent=4,
             )
diff --git a/socialgene/compare_proteins/hmm/__init__.py b/socialgene/compare_gene_clusters/__init__.py
similarity index 100%
rename from socialgene/compare_proteins/hmm/__init__.py
rename to socialgene/compare_gene_clusters/__init__.py
diff --git a/socialgene/compare_gene_clusters/compare_gene_clusters.py b/socialgene/compare_gene_clusters/compare_gene_clusters.py
new file mode 100644
index 00000000..98763b08
--- /dev/null
+++ b/socialgene/compare_gene_clusters/compare_gene_clusters.py
@@ -0,0 +1,30 @@
+from types import GeneratorType
+
+from socialgene.compare_proteins.diamond import DiamondBlastp
+from socialgene.compare_proteins.hmmer import CompareDomains
+from socialgene.compare_proteins.mmseqs import MMseqsEasySearch
+
+
+class BGCComparison:
+    def __init__(self, tool):
+        match tool:
+            case "blastp":
+                self.tool = DiamondBlastp()
+            case "mmseqs2":
+                self.tool = MMseqsEasySearch()
+            case "hmmer":
+                self.tool = CompareDomains()
+            case _:
+                raise ValueError(
+                    f"Tool {tool} not recognised, must be one of 'blastp', 'mmseqs2', 'hmmer'"
+                )
+
+    def compare(self, bgc1, bgc2, **kwargs):
+        if isinstance(bgc1, GeneratorType):
+            bgc1 = list(bgc1)
+        if isinstance(bgc2, GeneratorType):
+            bgc2 = list(bgc2)
+        return self.tool.reciprocal_hits(
+            self.tool.compare_proteins(bgc1, bgc2, **kwargs),
+            self.tool.compare_proteins(bgc2, bgc1, **kwargs),
+        )
diff --git a/socialgene/compare_proteins/base.py b/socialgene/compare_proteins/base.py
new file mode 100644
index 00000000..35b6896b
--- /dev/null
+++ b/socialgene/compare_proteins/base.py
@@ -0,0 +1,106 @@
+from abc import ABC, abstractmethod
+from typing import List
+
+import pandas as pd
+
+from socialgene.base.molbio import Protein
+
+BlastTab_COLUMNS = {
+    "query": str,
+    "target": str,
+    "pident": "Float64",
+    "length": "Int64",
+    "mismatch": "Int64",
+    "gapopen": "Int64",
+    "qstart": "Int64",
+    "qend": "Int64",
+    "sstart": "Int64",
+    "send": "Int64",
+    "evalue": "Float64",
+    "score": "Float64",
+    "qlen": "Int64",
+    "slen": "Int64",
+}
+
+
+class ProteinComparison(ABC):
+    # TODO: force subclasses to implement self.score_column and self.score_scale and self.name
+
+    @abstractmethod
+    def compare_proteins(self, p1: List[Protein], p2: List[Protein]):
+        ...
+
+    def reciprocal_hits(
+        self,
+        q_vs_t_df: pd.DataFrame,
+        t_vs_q_df: pd.DataFrame,
+    ):
+        """This function takes a dataframe and returns a dataframe with the reciprocal best hits"""
+        q_vs_t_df = self.best_hit_to_query(q_vs_t_df)
+        t_vs_q_df = self.best_hit_to_query(t_vs_q_df)
+        t_vs_q_df.rename(columns={"query": "target", "target": "query"}, inplace=True)
+        df = pd.concat([q_vs_t_df, t_vs_q_df])
+        del q_vs_t_df, t_vs_q_df
+        df.sort_values(by=self.score_column, ascending=False, inplace=True)
+        # remove non reciprocal
+        df = df[df.duplicated(["query", "target"], keep=False)]
+        df = df.drop_duplicates(subset=["query", "target", self.score_column])
+        # keep the reciprocal hit with the highest bitscore
+        # but if multiple hits have the same highest bitscore, keep them all
+        return df[
+            df.groupby(["query", "target"])[self.score_column].transform("max")
+            == df[self.score_column]
+        ]
+
+    def best_hit_to_query(
+        self,
+        df: pd.DataFrame,
+    ):
+        return (
+            df.reset_index(inplace=False, drop=True)
+            .sort_values(self.score_column, ascending=False)
+            .drop_duplicates("query", keep="first")
+            .reset_index(inplace=False, drop=True)
+        )
+
+
+class HMMDataFrame(ProteinComparison):
+    def __init__(self, score_column="score"):
+        self.score_column = score_column
+
+
+class BlastTab(ProteinComparison):
+    def __init__(self, score_column="score"):
+        self.score_column = score_column
+        self.score_scale = float("inf")
+
+    # def reciprocal_hits(self, q_vs_t_df: pd.DataFrame, t_vs_q_df: pd.DataFrame):
+    #     # Create a new column in both dataframes: normalised bitscore
+    #     q_vs_t_df["norm_bitscore"] = q_vs_t_df.bitscore / q_vs_t_df.length
+    #     t_vs_q_df["norm_bitscore"] = t_vs_q_df.bitscore / t_vs_q_df.length
+    #     # Create query and subject coverage columns in both dataframes
+    #     q_vs_t_df["qcov"] = (q_vs_t_df.length / q_vs_t_df.qlen).clip(upper=1)
+    #     t_vs_q_df["qcov"] = (t_vs_q_df.length / t_vs_q_df.qlen).clip(upper=1)
+    #     q_vs_t_df["scov"] = (q_vs_t_df.length / q_vs_t_df.slen).clip(upper=1)
+    #     t_vs_q_df["scov"] = (t_vs_q_df.length / t_vs_q_df.slen).clip(upper=1)
+    #     q_vs_t_df = self.best_hit_to_query(q_vs_t_df)
+    #     t_vs_q_df = self.best_hit_to_query(t_vs_q_df)
+    #     t_vs_q_df.rename(columns={"query": "target", "target": "query"}, inplace=True)
+    #     df = pd.concat([q_vs_t_df, t_vs_q_df])
+    #     del q_vs_t_df, t_vs_q_df
+    #     df.sort_values(by="bitscore", ascending=False, inplace=True)
+    #     # remove non reciprocal
+    #     df = df[df.duplicated(["query", "target"], keep=False)]
+    #     # keep the reciprocal hit with the highest bitscore
+    #     # but if multiple hits have the same highest bitscore, keep them all
+    #     return df[
+    #         df.groupby(["query", "target"])["bitscore"].transform(max) == df["bitscore"]
+    #     ]
+
+    # def best_hit_to_query(self, df: pd.DataFrame):
+    #     return (
+    #         df.reset_index(inplace=False, drop=True)
+    #         .sort_values("bitscore", ascending=False)
+    #         .drop_duplicates("query", keep="first")
+    #         .reset_index(inplace=False, drop=True)
+    #     )
diff --git a/socialgene/compare_proteins/base_class.py b/socialgene/compare_proteins/base_class.py
deleted file mode 100644
index 9cb4a020..00000000
--- a/socialgene/compare_proteins/base_class.py
+++ /dev/null
@@ -1,42 +0,0 @@
-from abc import ABC, abstractmethod
-from collections import namedtuple
-
-
-class CompareProteinsBaseClass(ABC):
-    _create_tuple = namedtuple(
-        "standard_protein_comparison",
-        (
-            "query",
-            "target",
-            "score",
-        ),
-    )
-
-    def __init__(self):
-        self.protein_comparisons = []
-
-    @property
-    @abstractmethod
-    def df(self):
-        ...
-        # return (
-        #     pd.DataFrame(self.protein_comparisons)
-        #     .sort_values(by=["mod_score"], ascending=False)
-        #     .reset_index(inplace=False, drop=True)
-        # )
-
-    @abstractmethod
-    def compare_one_to_one(self, p1, p2):
-        ...
-
-    @abstractmethod
-    def compare_one_to_many(self, p1_obj, p2_obj_list):
-        ...
-
-    @abstractmethod
-    def compare_many_to_many(self, p1_obj_list, p2_obj_list):
-        ...
-
-    @abstractmethod
-    def compare_all_to_all(self):
-        ...
diff --git a/socialgene/compare_proteins/diamond.py b/socialgene/compare_proteins/diamond.py
new file mode 100644
index 00000000..6024151e
--- /dev/null
+++ b/socialgene/compare_proteins/diamond.py
@@ -0,0 +1,140 @@
+import os
+import tempfile
+from pathlib import Path
+
+import pandas as pd
+
+from socialgene.base.molbio import Protein
+from socialgene.compare_proteins.base import BlastTab, BlastTab_COLUMNS
+from socialgene.utils.logging import log
+from socialgene.utils.run_subprocess import run_subprocess
+
+
+class DiamondBlastp(BlastTab):
+    def __init__(self):
+        super().__init__()
+        self.temp_db_path = None
+        self.df = None
+        self.name = "Diamond BLASTp"
+
+    def make_db(
+        self,
+        fasta_string: str,
+        db_path=None,
+        threads=1,
+        **kwargs,
+    ):
+        db_path = Path(db_path).with_suffix(".dmnd")
+        # run diamond makedb on fasta_file allow passing kwargs to diamond
+        command_list = [
+            "diamond",
+            "makedb",
+            "--db",
+            str(db_path),
+            "--threads",
+            str(threads),
+            "--verbose",
+        ]
+        mes = run_subprocess(
+            command_list=command_list,
+            input=fasta_string,
+            text=True,
+            capture_output=True,
+            status=False,
+            **kwargs,
+        )
+        log.debug(mes)
+        if not Path(db_path).exists():
+            raise FileNotFoundError(
+                f"No database from DiamondBlastp make_db found at {db_path}"
+            )
+
+    @staticmethod
+    def run(fasta_path, db_path=None, threads=1, argstring="", **kwargs):
+        # run diamond blastp on query_fasta_string against db_path
+        if not Path(db_path).exists():
+            raise FileNotFoundError(
+                f"No database from Diamond makedb found at {db_path}"
+            )
+        with tempfile.TemporaryDirectory() as tmpdirname:
+            outpath = os.path.join(tmpdirname, "result.m8")
+            command_list = [
+                "diamond",
+                "blastp",
+                "--query",
+                str(fasta_path),
+                "--db",
+                str(db_path),
+                "--out",
+                str(outpath),
+                "--threads",
+                str(threads),
+                "--verbose",
+                "--outfmt",
+                "6",
+                "qseqid",
+                "sseqid",
+                "pident",
+                "length",
+                "mismatch",
+                "gapopen",
+                "qstart",
+                "qend",
+                "sstart",
+                "send",
+                "evalue",
+                "bitscore",
+                "qlen",
+                "slen",
+            ]
+            if argstring:
+                argstring = [str(i) for i in argstring.split()]
+                command_list.extend(argstring)
+            mes = run_subprocess(
+                command_list=command_list,
+                check=False,
+                shell=False,
+                capture_output=True,
+                status=False,
+            )
+            log.debug(mes)
+            if not os.path.exists(outpath):
+                log.warning("No output from MMseqs2 search")
+            else:
+                # sorted for reproducibility
+                return pd.read_csv(
+                    outpath,
+                    sep="\t",
+                    header=None,
+                    names=BlastTab_COLUMNS,
+                    dtype=BlastTab_COLUMNS,
+                ).sort_values(["score", "query"], ascending=False)
+
+    def compare_proteins(
+        self, queries, targets, cpus=1, argstring="--ultra-sensitive  --max-hsps 1"
+    ):
+        # loop through protein list and write to temporary fasta file
+        if isinstance(queries, Protein):
+            queries = [queries]
+        if isinstance(targets, Protein):
+            targets = [targets]
+        if not all([isinstance(i, Protein) for i in queries]):
+            raise TypeError("queries must be a list of Protein objects")
+        if not all([isinstance(i, Protein) for i in targets]):
+            raise TypeError("targets must be a list of Protein objects")
+        with tempfile.TemporaryDirectory() as tmpdirname:
+            query_fasta_path = Path(tmpdirname, "queries.faa")
+            target_dmnd_path = Path(tmpdirname, "targets.dmnd")
+            with open(query_fasta_path, "w") as h:
+                for protein in queries:
+                    h.write(protein.fasta_string_defline_uid)
+            self.make_db(
+                fasta_string="".join([i.fasta_string_defline_uid for i in targets]),
+                db_path=target_dmnd_path,
+            )
+            return self.run(
+                fasta_path=query_fasta_path,
+                db_path=target_dmnd_path,
+                threads=cpus,
+                argstring=argstring,
+            )
diff --git a/socialgene/compare_proteins/hmm/hmmer.py b/socialgene/compare_proteins/hmm/hmmer.py
deleted file mode 100644
index 678d5117..00000000
--- a/socialgene/compare_proteins/hmm/hmmer.py
+++ /dev/null
@@ -1,62 +0,0 @@
-from itertools import combinations, product
-from multiprocessing import Pool
-
-import pandas as pd
-
-from socialgene.compare_proteins.base_class import CompareProteinsBaseClass
-from socialgene.compare_proteins.hmm.scoring import _mod_score_tupler, mod_score
-
-
-def picklable_modscore(p1, p2):
-    # named tuple doesn't work in multiprocessing
-    return mod_score(p1, p2)._asdict()
-
-
-class CompareDomains(CompareProteinsBaseClass):
-    def __init__(self):
-        self.protein_comparisons = set()
-
-    @property
-    def mod_score_df(self):
-        return (
-            pd.DataFrame(self.protein_comparisons)
-            .sort_values(by=["mod_score"], ascending=False)
-            .reset_index(inplace=False, drop=True)
-        )
-
-    @property
-    def df(self):
-        return self.mod_score_df.filter(["query", "target", "mod_score"]).rename(
-            columns={"mod_score": "score"}
-        )
-
-    def compare_one_to_one(self, p1, p2):
-        return mod_score(p1, p2)
-
-    def compare_one_to_many(self, p1_obj, p2_obj_list, filter=True):
-        for i in p2_obj_list:
-            temp = mod_score(p1_obj, i)
-            if not filter or temp.jaccard > 0:
-                self.protein_comparisons.add(temp)
-
-    def compare_many_to_many(self, p1_obj_list, p2_obj_list, filter=True):
-        for i1, i2 in product(p1_obj_list, p2_obj_list):
-            temp = mod_score(i1, i2)
-            if not filter or temp.jaccard > 0:
-                self.protein_comparisons.add(temp)
-
-    def compare_all_to_all(self, p1_obj_list, filter=True):
-        for i1, i2 in combinations(p1_obj_list, 2):
-            temp = mod_score(i1, i2)
-            if not filter or temp.jaccard > 0:
-                self.protein_comparisons.add(temp)
-
-    def compare_all_to_all_parallel(self, p1_obj_list, cpus=1, only_hits=True):
-        # have to use _calculate_mod_score_not_named because named tuple can't pickle "protein_comparison_modscore"
-        with Pool(cpus) as p:
-            for i in p.starmap(
-                picklable_modscore,
-                combinations(p1_obj_list, 2),
-            ):
-                if not only_hits or i["jaccard"] > 0.001:
-                    self.protein_comparisons.add(_mod_score_tupler(**i))
diff --git a/socialgene/compare_proteins/hmm/scoring.py b/socialgene/compare_proteins/hmm_scoring.py
similarity index 91%
rename from socialgene/compare_proteins/hmm/scoring.py
rename to socialgene/compare_proteins/hmm_scoring.py
index 228c9c46..1b221a5c 100644
--- a/socialgene/compare_proteins/hmm/scoring.py
+++ b/socialgene/compare_proteins/hmm_scoring.py
@@ -27,7 +27,7 @@ def mod_score(p1, p2):
         p1 (Protein): SocialGene Protein Class
         p1 (Protein): SocialGene Protein Class
     Returns:
-        dict: {l1, l2, levenshtein, jaccard, mod_score}; mod_score -> 2 = Perfectly similar; otherwise (1/Levenshtein + Jaccard)
+        dict: {ProteinClass, ProteinClass, levenshtein, jaccard, mod_score}; mod_score -> 2 = Perfectly similar; otherwise (1/Levenshtein + Jaccard)
     """
     # If either protein contains no HMM annotations,
     # return a mod score with the worst scores possible
@@ -35,10 +35,10 @@ def mod_score(p1, p2):
         raise TypeError(f"p1 type: {type(p1)}; p2 type: {type(p2)}")
     length_input_list_1 = len(p1.domains)
     length_input_list_2 = len(p2.domains)
-    if p1.uid == p2.uid:
+    if p1 == p2:
         return _mod_score_tupler(
-            p1.uid,
-            p2.uid,
+            p1,
+            p2,
             length_input_list_1,
             length_input_list_2,
             round(0, 2),
@@ -49,8 +49,8 @@ def mod_score(p1, p2):
         # If either protein contains no HMM annotations,
         # return a mod score with the worst scores possible
         return _mod_score_tupler(
-            p1.uid,
-            p2.uid,
+            p1,
+            p2,
             length_input_list_1,
             length_input_list_2,
             round(100, 2),
@@ -81,8 +81,8 @@ def mod_score(p1, p2):
             mod_score_value = (jaccard_score * 0.5) + mod_levenshtein_score
 
     return _mod_score_tupler(
-        p1.uid,
-        p2.uid,
+        p1,
+        p2,
         length_input_list_1,
         length_input_list_2,
         round(mod_levenshtein_score, 2),
diff --git a/socialgene/compare_proteins/hmmer.py b/socialgene/compare_proteins/hmmer.py
new file mode 100644
index 00000000..c9cfd8de
--- /dev/null
+++ b/socialgene/compare_proteins/hmmer.py
@@ -0,0 +1,68 @@
+from itertools import combinations, product
+from multiprocessing import Pool
+
+import pandas as pd
+
+from socialgene.compare_proteins.base import HMMDataFrame
+from socialgene.compare_proteins.hmm_scoring import _mod_score_tupler, mod_score
+
+
+def picklable_modscore(p1, p2):
+    # named tuple doesn't work in multiprocessing
+    return mod_score(p1, p2)._asdict()
+
+
+class CompareDomains(HMMDataFrame):
+    def __init__(self):
+        self.name = "HMMER annotation comparison with SocialGene"
+        self.score_column = "score"
+
+    def compare_proteins(self, queries, targets):
+        return pd.DataFrame(
+            (
+                {
+                    "query": i.query.uid,
+                    "target": i.target.uid,
+                    "query_n_domains": i.query_n_domains,
+                    "target_n_domains": i.target_n_domains,
+                    "jaccard": i.jaccard,
+                    "score": i.mod_score,
+                }
+                for i in self.compare_many_to_many(
+                    queries, targets, filter_non_hits=True
+                )
+            ),
+        ).drop_duplicates(subset=["query", "target"])
+
+    def compare_one_to_one(self, p1, p2):
+        protein_comparisons = set()
+        return self.protein_comparisons_df(protein_comparisons)
+
+    def compare_one_to_many(self, p1_obj, p2_obj_list, filter_non_hits=True):
+        for i in p2_obj_list:
+            temp = mod_score(p1_obj, i)
+            if not filter_non_hits or temp.jaccard > 0:
+                yield temp
+
+    def compare_many_to_many(self, p1_obj_list, p2_obj_list, filter_non_hits=True):
+        for i1, i2 in product(p1_obj_list, p2_obj_list):
+            temp = mod_score(i1, i2)
+            if not filter_non_hits or temp.jaccard > 0:
+                yield temp
+
+    def compare_all_to_all(self, p1_obj_list, filter_non_hits=True):
+        for i1, i2 in combinations(p1_obj_list, 2):
+            temp = mod_score(i1, i2)
+            if not filter_non_hits or temp.jaccard > 0:
+                yield temp
+
+    def compare_all_to_all_parallel(self, p1_obj_list, cpus=1, only_hits=True):
+        # have to use _calculate_mod_score_not_named because named tuple can't pickle "protein_comparison_modscore"
+        with Pool(cpus) as p:
+            for i in p.starmap(
+                picklable_modscore,
+                combinations(p1_obj_list, 2),
+            ):
+                if not only_hits or i["jaccard"] > 0.001:
+                    temp = _mod_score_tupler(**i)
+                    yield temp
diff --git a/socialgene/compare_proteins/mmseqs.py b/socialgene/compare_proteins/mmseqs.py
new file mode 100644
index 00000000..2cc3c60f
--- /dev/null
+++ b/socialgene/compare_proteins/mmseqs.py
@@ -0,0 +1,166 @@
+#!/usr/bin/env python3
+
+import logging
+import os
+import tempfile
+from pathlib import Path
+
+import pandas as pd
+
+from socialgene.base.molbio import Protein
+from socialgene.compare_proteins.base import BlastTab, BlastTab_COLUMNS
+from socialgene.utils.logging import log
+from socialgene.utils.run_subprocess import run_subprocess
+
+# mmseqs must be present on PATH
+
+
+class MMseqsEasySearch(BlastTab):
+    def __init__(self):
+        super().__init__()
+        self.temp_db_path = None
+        self.df = None
+        self.name = "MMseqs2 EasySearch"
+
+    @staticmethod
+    def make_db(
+        fasta_string: str,
+        db_path=None,
+        **kwargs,
+    ):
+        """Run MMseqs2 createdb on an input fasta file
+
+        Args:
+            fasta_path (str): Path to fasta file
+            target_database (str): Path to MMseqs2 database
+        """
+
+        command_list = [
+            "mmseqs",
+            "createdb",
+            "stdin",
+            str(db_path),
+        ]
+        mes = run_subprocess(
+            command_list=command_list,
+            input=fasta_string,
+            text=True,
+            capture_output=True,
+            status=False,
+            **kwargs,
+        )
+        log.debug(mes)
+        if not Path(db_path).exists():
+            raise FileNotFoundError(
+                f"No database from mmseqs make_db found at {db_path}"
+            )
+
+    @staticmethod
+    def index_database(database_path):
+        """Run MMseqs2 createindex on an MMseqs2 database
+
+        Args:
+            target_database (str): Path to MMseqs2 database
+        """
+        with tempfile.TemporaryDirectory() as tmpdirname:
+            command_list = [
+                "mmseqs",
+                "createindex",
+                str(database_path),
+                str(tmpdirname),
+            ]
+            mes = run_subprocess(
+                command_list=command_list,
+                check=False,
+                shell=False,
+                capture_output=True,
+                status=False,
+            )
+        logging.debug(mes)
+        if not os.path.exists(f"{database_path}.idx"):
+            logging.warning("No output from MMseqs2 createindex")
+
+    def run(
+        self,
+        fasta_path,
+        target_database,
+        cpus=1,
+        argstring="",
+    ):
+        """Search an input fasta file against a target database with external MMseqs2 program
+
+            Args:
+                fasta_path (str): Path to fasta file
+                target_database (str): Path to MMseqs2 database
+                argstring (str): additonal arguments to pass to mmseqs search, as a string
+        =
+            Returns:
+                pandas_df: dataframe of the mmseqs search result
+        """
+        with tempfile.TemporaryDirectory() as tmpdirname:
+            outpath = os.path.join(tmpdirname, "result.m8")
+            command_list = [
+                "mmseqs",
+                "easy-search",
+                str(fasta_path),
+                str(target_database),
+                str(outpath),
+                str(tmpdirname),
+                "--format-mode",
+                "0",
+                "--format-output",
+                "query,target,pident,alnlen,mismatch,gapopen,qstart,qend,tstart,tend,evalue,bits,qlen,tlen",
+                "--threads",
+                str(cpus),
+            ]
+            if argstring:
+                argstring = [str(i) for i in argstring.split()]
+                command_list.extend(argstring)
+            mes = run_subprocess(
+                command_list=command_list,
+                check=False,
+                shell=False,
+                capture_output=True,
+                status=False,
+            )
+            logging.debug(mes)
+            if not os.path.exists(outpath):
+                logging.warning("No output from MMseqs2 search")
+            else:
+                # sorted for reproducibility
+                return pd.read_csv(
+                    outpath,
+                    sep="\t",
+                    names=BlastTab_COLUMNS,
+                    dtype=BlastTab_COLUMNS,
+                ).sort_values(["score", "query"], ascending=False)
+
+    def compare_proteins(self, queries, targets, cpus=1, argstring="", index=False):
+        # loop through protein list and write to temporary fasta file
+        if isinstance(queries, Protein):
+            queries = [queries]
+        if isinstance(targets, Protein):
+            targets = [targets]
+        if not all([isinstance(i, Protein) for i in queries]):
+            raise TypeError("queries must be a list of Protein objects")
+        if not all([isinstance(i, Protein) for i in targets]):
+            raise TypeError("targets must be a list of Protein objects")
+
+        with tempfile.TemporaryDirectory() as tmpdirname:
+            query_fasta_path = Path(tmpdirname, "queries.faa")
+            target_dmnd_path = Path(tmpdirname, "targets")
+            with open(query_fasta_path, "w") as h:
+                for protein in queries:
+                    h.write(protein.fasta_string_defline_uid)
+            self.make_db(
+                fasta_string="".join([i.fasta_string_defline_uid for i in targets]),
+                db_path=target_dmnd_path,
+            )
+            if index:
+                self.index_database(target_dmnd_path)
+            return self.run(
+                fasta_path=query_fasta_path,
+                target_database=target_dmnd_path,
+                cpus=cpus,
+                argstring=argstring,
+            )
diff --git a/socialgene/compare_proteins/mmseqs_WIP.py b/socialgene/compare_proteins/mmseqs_WIP.py
deleted file mode 100644
index 42ff592c..00000000
--- a/socialgene/compare_proteins/mmseqs_WIP.py
+++ /dev/null
@@ -1,98 +0,0 @@
-# flake8: noqa
-from itertools import combinations, product
-from multiprocessing import Pool
-from pathlib import Path
-
-import pandas as pd
-
-from socialgene.compare_proteins.base_class import CompareProteinsBaseClass
-from socialgene.mmseqs.create_database import create_database
-from socialgene.mmseqs.search import search
-from socialgene.mmseqs.subset_database import createsubdb
-
-target_proteins = list(sg.proteins.values())
-
-# with tempfile.TemporaryDirectory() as tmpdirname:
-
-tmpdirname = "/home/chase/Downloads/work"
-fasta_path = Path(tmpdirname, "target_fasta.fa")
-mmseqs_path = "/home/chase/Downloads/work/mmseqsdb"
-
-with open(fasta_path, "w") as handle:
-    handle.writelines(
-        (i.fasta_string_defline_uid for i in target_proteins if i.sequence)
-    )
-
-
-create_database(fasta_path, mmseqs_path)
-
-mmseqs_lookup = "/home/chase/Downloads/work/mmseqsdb.lookup"
-mmseqs_output_subset_ids = "/home/chase/Downloads/work/subset_ids"
-mmseqs_subset_db = "/home/chase/Downloads/work/subset_db"
-
-# create a subdb using protein hash ids
-protids = [i.uid for i in target_proteins][0:4]
-with open(mmseqs_lookup, "r") as mml:
-    with open(mmseqs_output_subset_ids, "w") as h:
-        for i in mml:
-            temp = i.split("\t")
-            if temp[1] in protids:
-                z = "\t"
-                h.writelines(f"{i.split(z)[0]}\n")
-
-createsubdb(olddb=mmseqs_path, newdb=mmseqs_subset_db, idfile=mmseqs_output_subset_ids)
-
-
-a = search(fasta_path, mmseqs_subset_db)
-
-
-class CompareDiamond(CompareProteinsBaseClass):
-    def __init__(self):
-        self.protein_comparisons = set()
-
-    @property
-    def mod_score_df(self):
-        return (
-            pd.DataFrame(self.protein_comparisons)
-            .sort_values(by=["mod_score"], ascending=False)
-            .reset_index(inplace=False, drop=True)
-        )
-
-    @property
-    def df(self):
-        return self.mod_score_df.filter(["query", "target", "mod_score"]).rename(
-            columns={"mod_score": "score"}
-        )
-
-    def compare_one_to_one(self, p1, p2):
-        return self.calculate_mod_score(p1, p2)
-
-    def compare_one_to_many(self, p1_obj, p2_obj_list):
-        for i in p2_obj_list:
-            temp = self.calculate_mod_score(p1_obj, i)
-            if temp.jaccard > 0:
-                self.protein_comparisons.add(temp)
-
-    def compare_many_to_many(self, p1_obj_list, p2_obj_list):
-        for i1, i2 in product(p1_obj_list, p2_obj_list):
-            temp = self.calculate_mod_score(i1, i2)
-            if temp.jaccard > 0:
-                self.protein_comparisons.add(temp)
-
-    def compare_all_to_all(self, p1_obj_list):
-        for i1, i2 in combinations(p1_obj_list, 2):
-            temp = self.calculate_mod_score(i1, i2)
-            if temp.jaccard > 0:
-                temp
-                self.protein_comparisons.add(temp)
-
-    def compare_all_to_all_parallel(self, p1_obj_list, cpus=1):
-        # have to use _calculate_mod_score_not_named because named tuple can't pickle "protein_comparison_modscore"
-        with Pool(cpus) as p:
-            for i in p.starmap(
-                _calculate_mod_score_not_named,
-                combinations(p1_obj_list, 2),
-            ):
-                # i[5] == jaccard
-                if i[5] > 0.001:
-                    self.protein_comparisons.add(_create_tuple(*i))
diff --git a/socialgene/hmm/hmmer.py b/socialgene/hmm/hmmer.py
index 2e402a58..2e8d784b 100644
--- a/socialgene/hmm/hmmer.py
+++ b/socialgene/hmm/hmmer.py
@@ -20,7 +20,7 @@ class HMMER:
 
     def __init__(self, hmm_filepath=None):
         self._check_hmmer_exists()
-        self.input_path = hmm_filepath
+        self.input_path = Path(hmm_filepath)
         self.decompressed_hmm_path = None
 
     @staticmethod
diff --git a/socialgene/mmseqs/__init__.py b/socialgene/mmseqs/__init__.py
deleted file mode 100644
index e69de29b..00000000
diff --git a/socialgene/mmseqs/create_database.py b/socialgene/mmseqs/create_database.py
deleted file mode 100644
index 89032fc7..00000000
--- a/socialgene/mmseqs/create_database.py
+++ /dev/null
@@ -1,63 +0,0 @@
-#!/usr/bin/env python3
-
-
-import argparse
-import logging
-import os
-
-from socialgene.utils.run_subprocess import run_subprocess
-
-# mmseqs must be present on PATH
-
-
-parser = argparse.ArgumentParser(
-    description="Run MMseqs2 createdb on an input fasta file"
-)
-
-parser.add_argument(
-    "input_fasta_path",
-    help="Path to fasta file",
-)
-
-parser.add_argument(
-    "target_database_path",
-    help="Path to fasta file",
-)
-
-
-def create_database(fasta_path, database_path):
-    """Run MMseqs2 createdb on an input fasta file
-
-    Args:
-        fasta_path (str): Path to fasta file
-        target_database (str): Path to MMseqs2 database
-    """
-
-    command_list = [
-        "mmseqs",
-        "createdb",
-        str(fasta_path),
-        str(database_path),
-    ]
-    mes = run_subprocess(
-        command_list=command_list, check=False, shell=False, capture_output=True
-    )
-    logging.debug(mes)
-    if not os.path.exists(database_path):
-        logging.warning("No output from MMseqs2 create_database")
-
-
-def main():
-    args = parser.parse_args()
-
-    fasta_path = args.input_fasta_path
-    target_database = args.target_database_path
-
-    if not os.path.exists(fasta_path):
-        raise FileExistsError(fasta_path)
-
-    create_database(fasta_path, target_database)
-
-
-if __name__ == "__main__":
-    main()
diff --git a/socialgene/mmseqs/index_database.py b/socialgene/mmseqs/index_database.py
deleted file mode 100644
index 39a745c0..00000000
--- a/socialgene/mmseqs/index_database.py
+++ /dev/null
@@ -1,51 +0,0 @@
-#!/usr/bin/env python3
-
-
-import argparse
-import logging
-import os
-import tempfile
-
-from socialgene.utils.run_subprocess import run_subprocess
-
-# mmseqs must be present on PATH
-
-
-parser = argparse.ArgumentParser(
-    description="Run MMseqs2 createindex on an MMseqs2 database"
-)
-
-parser.add_argument(
-    "target_database_path",
-    help="Path to fasta file",
-)
-
-
-def index_database(database_path):
-    """Run MMseqs2 createindex on an MMseqs2 database
-
-    Args:
-        target_database (str): Path to MMseqs2 database
-    """
-    with tempfile.TemporaryDirectory() as tmpdirname:
-        command_list = ["mmseqs", "createindex", database_path, tmpdirname]
-        mes = run_subprocess(
-            command_list=command_list, check=False, shell=False, capture_output=True
-        )
-    logging.debug(mes)
-    if not os.path.exists(f"{database_path}.idx"):
-        logging.warning("No output from MMseqs2 createindex")
-
-
-def main():
-    args = parser.parse_args()
-    target_database = args.target_database_path
-
-    if not os.path.exists(target_database):
-        raise FileExistsError(target_database)
-
-    index_database(target_database)
-
-
-if __name__ == "__main__":
-    main()
diff --git a/socialgene/mmseqs/search.py b/socialgene/mmseqs/search.py
deleted file mode 100644
index ea3bd8a9..00000000
--- a/socialgene/mmseqs/search.py
+++ /dev/null
@@ -1,106 +0,0 @@
-#!/usr/bin/env python3
-
-
-import argparse
-import logging
-import os
-import tempfile
-
-import pandas as pd
-
-from socialgene.utils.run_subprocess import run_subprocess
-
-# mmseqs must be present on PATH
-
-
-parser = argparse.ArgumentParser(
-    description="Run MMseqs2 search on an input amino acid sequence"
-)
-
-parser.add_argument(
-    "input_fasta_path",
-    help="Path to fasta file",
-)
-
-parser.add_argument(
-    "target_database_path",
-    help="Path to fasta file",
-)
-
-MMSEQS_OUT_COLUMNS = {
-    "query": str,
-    "target": str,
-    "pident": "Float32",
-    "alnlen": "Int32",
-    "mismatch": "Int32",
-    "gapopen": "Int32",
-    "qstart": "Int32",
-    "qend": "Int32",
-    "tstart": "Int32",
-    "tend": "Int32",
-    "evalue": "Float32",
-    "bits": "Int32",
-}
-
-
-def search(fasta_path, target_database, argstring=""):
-    """Search an input fasta file against a target database with external MMseqs2 program
-
-        Args:
-            fasta_path (str): Path to fasta file
-            target_database (str): Path to MMseqs2 database
-            argstring (str): additonal arguments to pass to mmseqs search, as a string
-    =
-        Returns:
-            pandas_df: dataframe of the mmseqs search result
-    """
-    with tempfile.TemporaryDirectory() as tmpdirname:
-        outpath = os.path.join(tmpdirname, "result.m8")
-        command_list = [
-            "mmseqs",
-            "easy-search",
-            str(fasta_path),
-            str(target_database),
-            str(outpath),
-            str(tmpdirname),
-            "--format-mode",
-            "0",
-        ]
-        if argstring:
-            argstring = [str(i) for i in argstring.split()]
-            command_list.extend(argstring)
-        mes = run_subprocess(
-            command_list=command_list, check=False, shell=False, capture_output=True
-        )
-        logging.info(mes)
-        if not os.path.exists(outpath):
-            logging.warning("No output from MMseqs2 search")
-        else:
-            return (
-                pd.read_csv(
-                    outpath,
-                    sep="\t",
-                    names=MMSEQS_OUT_COLUMNS,
-                    dtype=MMSEQS_OUT_COLUMNS,
-                )
-                .sort_values(["pident", "bits"], ascending=False)
-                .reset_index(drop=True)
-            )
-
-
-def main():
-    args = parser.parse_args()
-
-    fasta_path = args.input_fasta_path
-    target_database = args.target_database_path
-
-    if not os.path.exists(fasta_path):
-        raise FileExistsError(fasta_path)
-    if not os.path.exists(target_database):
-        raise FileExistsError(target_database)
-
-    print(search(fasta_path, target_database))
-
-
-if __name__ == "__main__":
-    main()
diff --git a/socialgene/mmseqs/subset_database.py b/socialgene/mmseqs/subset_database.py
deleted file mode 100644
index 33c56546..00000000
--- a/socialgene/mmseqs/subset_database.py
+++ /dev/null
@@ -1,55 +0,0 @@
-#!/usr/bin/env python3
-
-
-import argparse
-import logging
-import os
-
-from socialgene.utils.run_subprocess import run_subprocess
-
-# mmseqs must be present on PATH
-
-
-parser = argparse.ArgumentParser(
-    description="Run MMseqs2 subsetdb on an input fasta file"
-)
-
-parser.add_argument(
-    "idfile",
-    help="Path to idfile file",
-)
-
-parser.add_argument(
-    "olddb",
-    help="Path to olddb",
-)
-
-parser.add_argument(
-    "newdb",
-    help="Path to newdb",
-)
-
-
-def createsubdb(olddb, newdb, idfile):
-    command_list = [
-        "mmseqs",
-        "createsubdb",
-        str(idfile),
-        str(olddb),
-        str(newdb),
-    ]
-    mes = run_subprocess(
-        command_list=command_list, check=False, shell=False, capture_output=True
-    )
-    logging.debug(mes)
-    if not os.path.exists(newdb):
-        logging.warning("No output from MMseqs2 createsubdb")
-
-
-def main():
-    args = parser.parse_args()
-    createsubdb(args.olddb, args.newdb, args.idfile)
-
-
-if __name__ == "__main__":
-    main()
diff --git a/socialgene/parsers/fasta.py b/socialgene/parsers/fasta.py
index d0f24730..b27da477 100644
--- a/socialgene/parsers/fasta.py
+++ b/socialgene/parsers/fasta.py
@@ -77,7 +77,7 @@ def parse_fasta_file(
             _open = fh.open_read(input)
             input_from = input
         with _open as handle:
-            self.add_assembly(uid=assembly_id)
+            self.add_assembly(uid=assembly_id, parent=self)
             self.assemblies[assembly_id].add_locus(external_id=assembly_id)
             record_counter = 0
             for seq_record in SeqIO.parse(handle, "fasta"):
diff --git a/socialgene/parsers/genbank.py b/socialgene/parsers/genbank.py
index 0d301ebe..ed4a5436 100644
--- a/socialgene/parsers/genbank.py
+++ b/socialgene/parsers/genbank.py
@@ -51,7 +51,7 @@ def _add_assembly(self, input_path, seq_record):
         if not assembly_id:
             # use random unique id as assembly id
             assembly_id = str(uuid4())
-        self.add_assembly(uid=assembly_id)
+        self.add_assembly(uid=assembly_id, parent=self)
         return assembly_id
 
     def _add_locus(self, seq_record, assembly_id):
diff --git a/socialgene/parsers/hmmmodel.py b/socialgene/parsers/hmmmodel.py
index cf70f315..da8dc6cb 100644
--- a/socialgene/parsers/hmmmodel.py
+++ b/socialgene/parsers/hmmmodel.py
@@ -342,7 +342,7 @@ def read(self, filepath, base_dir=None):
         for i, model in enumerate(
             self.read_model_generator(filepath=filepath, base_dir=base_dir)
         ):
-            log.debug(f"Reading model {str(i+1)} from {filepath}")
+            log.debug(f"Reading model {str(i + 1)} from {filepath}")
             model._n = self.dict_key_index
             self.models[self.dict_key_index] = model
             self.dict_key_index += 1
@@ -366,7 +366,6 @@ def read_model_generator(self, filepath, base_dir=None):
                     # switch to model addition
                     _add_line_contents = self.temp_model.add_model
                 if line.startswith("//"):
-                    log.warning(Path(base_dir).name)
                     # yield model
                     self.temp_model.add_model_hash()
                     self.temp_model.find_pfam_accessions()
diff --git a/socialgene/scoring/__init__.py b/socialgene/scoring/__init__.py
deleted file mode 100644
index e69de29b..00000000
diff --git a/socialgene/search/base.py b/socialgene/search/base.py
index f505f4b7..f6fe5019 100644
--- a/socialgene/search/base.py
+++ b/socialgene/search/base.py
@@ -12,11 +12,11 @@
     TimeElapsedColumn,
 )
 from rich.table import Table
-from textdistance import levenshtein
+from textdistance import jaccard, levenshtein
 
 from socialgene.base.socialgene import SocialGene
 from socialgene.clustermap.serialize import SerializeToClustermap
-from socialgene.compare_proteins.hmm.hmmer import CompareDomains
+from socialgene.compare_gene_clusters.compare_gene_clusters import BGCComparison
 from socialgene.neo4j.neo4j import GraphDriver
 from socialgene.utils.logging import log
 
@@ -63,7 +63,7 @@ class SearchBase(ABC):
         break_bgc_on_gap_of (int): Number of base pairs to break a BGC on if a gap is greater than this value.
         sg_object (SocialGene): SocialGene object containing the database.
         raw_search_results_df (pd.DataFrame): Initial search results as a pandas DataFrame.
-        bgc_order (pd.DataFrame): Order of the BGCs in the search results as a pandas DataFrame.
+        sorted_bgcs (pd.DataFrame): Order of the BGCs in the search results as a pandas DataFrame.
         link_df (pd.DataFrame): Linkage information between BGCs in the search results as a pandas DataFrame.
         group_df (pd.DataFrame): Grouping information for BGCs in the search results as a pandas DataFrame.
         n_searched_proteins (int): Number of proteins searched in the database.
@@ -100,7 +100,7 @@ def __init__(
         self.break_bgc_on_gap_of = break_bgc_on_gap_of
         self.sg_object = SocialGene()
         self.raw_search_results_df = pd.DataFrame()
-        self.bgc_order = None
+        self.sorted_bgcs = None
         self.link_df = pd.DataFrame()
         self.group_df = pd.DataFrame()
         self.n_searched_proteins = None
@@ -149,21 +149,28 @@ def _modify_input_bgc_name(self):
         ].uid = self.modified_input_bgc_name
         self.input_assembly = self.sg_object.assemblies[self.modified_input_bgc_name]
 
+    def create_input_bgcs(self):
+        for locus in self.input_assembly.loci.values():
+            locus.add_bgcs_by_feature(features=locus.features)
+        self.input_bgc = list(self.input_assembly.gene_clusters)[0]
+
     def _input_bgc_info(self):
         log.info(
-            f"Input BGC has {len(self.sg_object.proteins)} proteins and/or psuedogenes"
+            f"Input BGC has {len(self.sg_object.proteins)} proteins and/or pseudogenes"
         )
 
     def read_sg_object(self, sg_object: SocialGene):
         self.sg_object = sg_object
         self._modify_input_bgc_name()
         self._input_bgc_info()
+        self.create_input_bgcs()
 
     def read_input_bgc(self, gbk_path: str):
         # parse input BGC
         self.sg_object.parse(gbk_path)
         self._modify_input_bgc_name()
         self._input_bgc_info()
+        self.create_input_bgcs()
 
     def filter(self, drop_raw_search_results_df=False):
         if self.raw_search_results_df.empty:
@@ -185,9 +192,9 @@ def filter(self, drop_raw_search_results_df=False):
         if self.working_search_results_df.empty:
             raise ValueError("No hits found after filtering at the assembly level")
 
-    def cluster(self):
-        # assign clusters of proteins that aren't interrupted by a gap greater than break_bgc_on_gap_of
-        self._label_clusters()
+    # def cluster(self):
+    #     # assign clusters of proteins that aren't interrupted by a gap greater than break_bgc_on_gap_of
+    #     self._label_clusters()
 
     def _primary_bgc_regions(self):
         return self._collapse_cluster(
@@ -205,27 +212,49 @@ def annotate(self):
     def _rank_order_bgcs(self):
         # TODO: should be based off of create_links() output not bgc_df
         """Sorts assembly IDs by comparing the levenshtein distance of ordered query proteins (forward and reverse)"""
-        log.info("Start: Ranking BGCs")
-
-        input_bgc_nuc_id = list(self.input_assembly.loci.keys())[0]
-        input_protein_order = [
-            i.uid
-            for i in self.input_assembly.loci[
-                input_bgc_nuc_id
-            ].features_sorted_by_midpoint
-        ]
-        temp_dict = {}
-        for i in self.bgc_df["assembly_uid"].unique():
-            temp_list = self.bgc_df[self.bgc_df["assembly_uid"] == i]["query"].to_list()
-            forward = levenshtein(input_protein_order, temp_list)
-            temp_list.reverse()
-            reverse = levenshtein(input_protein_order, temp_list)
-            temp_dict[i] = min(forward, reverse)
-        self.bgc_order = [self.modified_input_bgc_name]
-        self.bgc_order.extend(
-            [k for k, v in sorted(temp_dict.items(), key=lambda item: item[1])]
+
+        def hl(group):
+            a = levenshtein(
+                list(group.sort_values(["t_start"])["query"]),
+                list(group.sort_values(["q_start"], ascending=True)["query"]),
+            ) / len(group)
+            b = levenshtein(
+                list(group.sort_values(["t_start"])["query"]),
+                list(group.sort_values(["q_start"], ascending=False)["query"]),
+            ) / len(group)
+            lev = a if a < b else b
+            lev = 1 - lev
+            jac = jaccard(
+                list(group.sort_values(["t_start"])["query"]),
+                list(group.sort_values(["q_start"], ascending=False)["query"]),
+            )
+            return (jac * 0.5) + lev
+
+        q_obj = pd.DataFrame(
+            [
+                {
+                    "query_feature": i,
+                    "q_start": i.start,
+                    "strand": i.strand,
+                }
+                for i in list(self.input_bgc.features_sorted_by_midpoint)
+            ]
         )
-        log.info("Finish: Ranking BGCs")
+        temp = {
+            k[1]: hl(
+                pd.merge(
+                    q_obj,
+                    group,
+                    on="query_feature",
+                    how="outer",
+                    suffixes=("", "_delme"),
+                )
+            )
+            for k, group in self.link_df.groupby(
+                ["query_cluster", "target_cluster"], sort=False
+            )
+        }
+        self.sorted_bgcs = sorted(temp, key=temp.get, reverse=True)
 
     def _bgc_regions_to_sg_object(self, collapsed_df):
         now = time.time()
@@ -281,7 +310,9 @@ def _prune_links(self, df: pd.DataFrame) -> pd.DataFrame:
         df_to_return = pd.concat([df_to_return, temp])
         return df_to_return
 
-    def _create_link_df(self, query_gene_cluster, target_gene_cluster):
+    def _create_link_df(
+        self, query_gene_cluster, target_gene_cluster, tool="blastp", **kwargs
+    ):
         """read the args, things are backward b/c context is searching the found bgc against the input bgc
 
         Args:
@@ -291,38 +322,52 @@ def _create_link_df(self, query_gene_cluster, target_gene_cluster):
         Returns:
             _type_: _description_
         """
-        compare_domains = CompareDomains()
-        compare_domains.compare_many_to_many(
-            (self.sg_object.proteins[gc.uid] for gc in query_gene_cluster.features),
-            (self.sg_object.proteins[gc.uid] for gc in target_gene_cluster.features),
+
+        comparator = BGCComparison(
+            tool=tool,
         )
-        df_to_return = compare_domains.df[compare_domains.df["score"] > 0.75]
+        protein_comparisons_df = comparator.compare(
+            query_gene_cluster.protein_iter, target_gene_cluster.protein_iter, **kwargs
+        )
+        protein_comparisons_df["query_protein"] = protein_comparisons_df["query"].apply(
+            lambda x: query_gene_cluster.proteins[x]
+        )
+        protein_comparisons_df["target_protein"] = protein_comparisons_df[
+            "target"
+        ].apply(lambda x: target_gene_cluster.proteins[x])
+        #   protein_comparisons_df.drop(columns=["query", "target"], inplace=True)
         q_obj = pd.DataFrame(
             [
-                {"obj": i, "query": i.uid, "q_start": i.start, "strand": i.strand}
+                {
+                    "query_cluster": query_gene_cluster,
+                    "query_feature": i,
+                    "query_protein": i.protein,
+                    "q_start": i.start,
+                    "strand": i.strand,
+                }
                 for i in list(query_gene_cluster.features_sorted_by_midpoint)
             ]
         )
         t_obj = pd.DataFrame(
             [
-                {"obj": i, "target": i.uid, "t_start": i.start, "strand": i.strand}
+                {
+                    "target_cluster": target_gene_cluster,
+                    "target_feature": i,
+                    "target_protein": i.protein,
+                    "t_start": i.start,
+                    "strand": i.strand,
+                }
                 for i in list(target_gene_cluster.features_sorted_by_midpoint)
             ]
         )
-        q_temp = pd.merge(df_to_return, q_obj, on="query", how="left")
-        temp = pd.merge(q_temp, t_obj, on="target", how="left").sort_values("t_start")
-        temp = temp[["obj_x", "obj_y", "score"]]
-        temp = temp.rename(
-            columns={
-                "obj_x": "query",
-                "obj_y": "target",
-            }
+        q_temp = pd.merge(protein_comparisons_df, q_obj, on="query_protein", how="left")
+        return (
+            pd.merge(q_temp, t_obj, on="target_protein", how="left")
+            .sort_values("t_start")
+            .rename(columns={comparator.tool.score_column: "score"}, inplace=False)
         )
-        return temp
 
-    def _create_links(
-        self,
-    ) -> pd.DataFrame:
+    def _create_links(self, tool="hmmer", cutoff=None, **kwargs) -> pd.DataFrame:
         """
         Loop through gene_cluster compare the proteins to the input BGC
 
@@ -338,19 +383,43 @@ def _create_links(
         """
         # Initialize an empty DataFrame to store the links
         log.info("Start: Creating links")
-        link_df = pd.DataFrame({"query": [], "target": [], "score": []})
-        for k_assembly, v_assembly in self.sg_object.assemblies.items():
-            for k_locus, v_locus in v_assembly.loci.items():
-                for gene_cluster in v_locus.gene_clusters:
+        link_df = pd.DataFrame()
+        progress_bar = Progress(
+            TextColumn("[progress.description]{task.description}"),
+            BarColumn(),
+            MofNCompleteColumn(),
+            TextColumn("• Time elapsed "),
+            TimeElapsedColumn(),
+            transient=True,
+        )
+        log.info(
+            f"Finding reciprocal best hits; protein similarity via {BGCComparison(tool=tool).tool.name}"
+        )
+        with progress_bar as pg:
+            task = pg.add_task(
+                description="a",
+                total=len(list(self.sg_object.get_all_gene_clusters())),
+            )
+            for target_gene_cluster in self.sg_object.get_all_gene_clusters():
+                if target_gene_cluster != self.input_bgc:
+                    pg.update(
+                        task,
+                        description=(
+                            f"\nComparing {self.input_bgc_id} to {target_gene_cluster.parent.external_id}:{min([i.start for i in target_gene_cluster.features])}-{max([i.start for i in target_gene_cluster.features])}"
+                        ),
+                    )
                     link_df = pd.concat(
                         [
                             link_df,
                             self._create_link_df(
-                                gene_cluster,
-                                self.input_assembly.loci[self.input_bgc_id],
+                                query_gene_cluster=self.input_bgc,
+                                target_gene_cluster=target_gene_cluster,
+                                tool=tool,
                             ),
                         ]
                     )
+
+                pg.update(task, advance=1, description="[blue]Complete Task")
         self.link_df = link_df
         log.info(f"Finish: Creating links; {len(link_df)} links produced")
         if self.link_df.empty:
@@ -364,6 +433,9 @@ def _choose_group(
             log.info("Finish: Assigning target BGC proteins to input BGC groups")
             log.warning("No links to group by, no groups produced")
             return
+        # df = self.link_df
+        # df["query"] = df["query"].apply(lambda x: x.uid)
+        # df["target"] = df["target"].apply(lambda x: x.uid)
         self.group_df = (
             self.link_df.sort_values(by="score", ascending=False)
             .groupby(["query"], observed=False)
@@ -446,13 +518,13 @@ def _sort_genes_by_start(self):
     def label_clusters(
         self,
     ):
-        """Walks through the df and for each nucleotide sequence, labels proteins within gap tolerance
+        """Walks through the df and for each nucleotide sequence, assigns genes/protein to a cluster, breaking on gap tolerance
 
         Args:
             break_bgc_on_gap_of (int, optional): Breaks a "cluster" when the diff of two proteins' starts is greater than this. Defaults to 20000.
 
         Returns:
-            pd.DataFrame: input df + cluster column (integers)
+            pd.DataFrame: input df + cluster column (integer)
         """
         log.info(
             f"Grouping protein hits if less than {str(self.break_bgc_on_gap_of)} bp apart"
@@ -507,7 +579,7 @@ def _filter_clusters(self, df, threshold) -> pd.Index:
 
     def write_clustermap_json(self, outpath):
         cmap = SerializeToClustermap(
-            bgc_order=self.bgc_order, sg_object=self.sg_object, link_df=self.link_df
+            sorted_bgcs=self.sorted_bgcs, sg_object=self.sg_object, link_df=self.link_df
         )
         cmap.write(outpath=outpath)
 
@@ -537,7 +609,7 @@ def user_friendly_hit_df(self, truncate_description_to_n_chars=20):
                     "q_description": i.description,
                     "q_external_id": i.external_id,
                 }
-                for i in self.input_assembly.loci[self.input_bgc_id].features
+                for i in self.input_bgc.features
             ]
         )
         db_res = pd.merge(db_res, query_df, on="query", how="left")
diff --git a/socialgene/search/hmmer.py b/socialgene/search/hmmer.py
index ee64a3c0..69bffedc 100644
--- a/socialgene/search/hmmer.py
+++ b/socialgene/search/hmmer.py
@@ -1,4 +1,5 @@
 import asyncio
+import concurrent.futures
 import re
 from math import ceil
 from pathlib import Path
@@ -18,6 +19,7 @@
 from rich.table import Table
 
 from socialgene.base.socialgene import SocialGene
+from socialgene.compare_proteins.hmmer import CompareDomains
 from socialgene.config import env_vars
 from socialgene.neo4j.neo4j import GraphDriver
 from socialgene.search.base import SearchBase
@@ -33,11 +35,51 @@
 )
 
 
-async def _find_similar_protein(
+def _find_similar_proteins(
     domain_list, frac: float = 0.75, only_culture_collection: bool = False
 ):
     """
-    The function `_find_sim_protein` is an asynchronous function that queries a Neo4j graph database to
+    The function `_find_similar_proteins` is a synchronous function that queries a Neo4j graph database to
+    find similar proteins based on protein domain information.
+
+    Args:
+      protein_domain_dict (Dict[List[str]]): The `protein_domain_dict` parameter is a dictionary where
+    the keys are protein uids and the values are lists of domain uids.
+      frac (float): The `frac` parameter is a float value that represents the fraction of protein
+    domains that need to match in order for a protein to be considered similar. By default, it is set to
+    0.75, meaning that at least 75% of the protein domains need to match
+
+    Returns:
+      The function `_find_sim_protein` returns a Pandas DataFrame containing the results of the query
+    executed in the Neo4j database. The DataFrame has columns `assembly_uid`, `nucleotide_uid`,
+    `target`, `n_start`, and `n_end`
+    """
+    # TODO: move async driver to reg driver class module
+    # with GraphDriver() as driver:
+    with GraphDriver().driver.session() as driver:
+        res = driver.run(
+            f"""
+                WITH $domain_list AS input_protein_domains
+                MATCH (prot1:protein)<-[a1:ANNOTATES]-(h0:hmm)
+                WHERE h0.uid IN input_protein_domains
+                WITH input_protein_domains, prot1, count(DISTINCT(h0)) as initial_count
+                WHERE initial_count > size(input_protein_domains) * $frac
+                MATCH (n1:nucleotide)-[e1:ENCODES]->(prot1)
+                {'WHERE (n1)-[:ASSEMBLES_TO]->(:assembly)-[:FOUND_IN]->(:culture_collection)' if only_culture_collection else ''}
+                MATCH (a1:assembly)<-[:ASSEMBLES_TO]-(n1)
+                RETURN a1.uid as assembly_uid, n1.uid as nucleotide_uid, prot1.uid as target, e1.start as n_start, e1.end as n_end
+                """,
+            domain_list=list(domain_list),
+            frac=frac,
+        ).to_df()
+        return res
+
+
+async def _find_similar_proteins_async(
+    domain_list, frac: float = 0.75, only_culture_collection: bool = False
+):
+    """
+    The function `_find_similar_proteins_async` is an asynchronous function that queries a Neo4j graph database to
     find similar proteins based on protein domain information.
 
     Args:
@@ -68,7 +110,7 @@ async def _find_similar_protein(
                 WITH input_protein_domains, prot1, count(DISTINCT(h0)) as initial_count
                 WHERE initial_count > size(input_protein_domains) * $frac
                 MATCH (n1:nucleotide)-[e1:ENCODES]->(prot1)
-                {'WHERE (n1)-[:ASSEMBLES_TO]->(:assembly)-[:FOUND_IN]->(:culture_collection)' if only_culture_collection else '' }
+                {'WHERE (n1)-[:ASSEMBLES_TO]->(:assembly)-[:FOUND_IN]->(:culture_collection)' if only_culture_collection else ''}
                 MATCH (a1:assembly)<-[:ASSEMBLES_TO]-(n1)
                 RETURN a1.uid as assembly_uid, n1.uid as nucleotide_uid, prot1.uid as target, e1.start as n_start, e1.end as n_end
                 """,
@@ -82,8 +124,10 @@ async def _find_similar_protein(
 sema = asyncio.BoundedSemaphore(5)
 
 
-async def _find_similar_protein_multiple(
-    dict_of_domain_lists, frac: float = 0.75, only_culture_collection: bool = False
+async def _find_similar_proteins_async_multiple(
+    dict_of_domain_lists,
+    frac: float = 0.75,
+    only_culture_collection: bool = False,
 ):
     # create task group
     # TODO: if webserver in future this could be used to control max time of search
@@ -92,7 +136,7 @@ async def _find_similar_protein_multiple(
             # create and issue tasks
             tasks = {
                 k: group.create_task(
-                    _find_similar_protein(
+                    _find_similar_proteins_async(
                         domain_list=v,
                         frac=frac,
                         only_culture_collection=only_culture_collection,
@@ -106,11 +150,47 @@ async def _find_similar_protein_multiple(
         return pd.concat([v.result().assign(query=k) for k, v in tasks.items()])
 
 
+def _find_similar_proteins_sync_multiple(
+    dict_of_domain_lists,
+    frac: float = 0.75,
+    only_culture_collection: bool = False,
+):
+    results = []
+    with concurrent.futures.ThreadPoolExecutor(
+        max_workers=20,
+    ) as executor:
+        futures = {}
+        for k, v in dict_of_domain_lists.items():
+            future = executor.submit(
+                _find_similar_proteins,
+                domain_list=v,
+                frac=frac,
+                only_culture_collection=only_culture_collection,
+            )
+            futures[future] = k
+        for f in concurrent.futures.as_completed(futures):
+            result = f.result()
+            result["query"] = futures[f]
+            results.append(result)
+    return pd.concat(results)
+
+
+def run_search(
+    dict_of_domain_lists, frac: float = 0.75, only_culture_collection: bool = False
+):
+    for k, v in dict_of_domain_lists.items():
+        _find_similar_proteins(
+            domain_list=v,
+            frac=frac,
+            only_culture_collection=only_culture_collection,
+        )
+
+
 def run_async_search(
     dict_of_domain_lists, frac: float = 0.75, only_culture_collection: bool = False
 ):
     return asyncio.run(
-        _find_similar_protein_multiple(
+        _find_similar_proteins_async_multiple(
             dict_of_domain_lists=dict_of_domain_lists,
             frac=frac,
             only_culture_collection=only_culture_collection,
@@ -118,7 +198,17 @@ def run_async_search(
     )
 
 
-class SearchDomains(SearchBase):
+def run_sync_search(
+    dict_of_domain_lists, frac: float = 0.75, only_culture_collection: bool = False
+):
+    return _find_similar_proteins_sync_multiple(
+        dict_of_domain_lists=dict_of_domain_lists,
+        frac=frac,
+        only_culture_collection=only_culture_collection,
+    )
+
+
+class SearchDomains(SearchBase, CompareDomains):
     """
     Class search for similar BGCs in a SocialGene database, using domains
     Args:
@@ -158,7 +248,7 @@ def __init__(
             self._set_hmm_outdegree()
         self._get_outdegree_per_hmm_per_protein()
 
-    def search(self, **kwargs):
+    def search(self, run_async=True, **kwargs):
         dict_of_domain_lists = (
             self.outdegree_df.groupby("protein_uid", observed=True)["hmm_uid"]
             .apply(list)
@@ -172,13 +262,22 @@ def search(self, **kwargs):
         ) as progress:
             task = progress.add_task("Progress...", total=2)
             progress.update(task, advance=1)
-            self.raw_search_results_df = run_async_search(
-                dict_of_domain_lists, **kwargs
-            )
-            self.raw_search_results_df["query"] = self.raw_search_results_df[
-                "query"
-            ].astype("category")
-            progress.update(task, advance=1)
+            if run_async:
+                self.raw_search_results_df = run_async_search(
+                    dict_of_domain_lists, **kwargs
+                )
+                self.raw_search_results_df["query"] = self.raw_search_results_df[
+                    "query"
+                ].astype("category")
+                progress.update(task, advance=1)
+            else:
+                self.raw_search_results_df = run_sync_search(
+                    dict_of_domain_lists, **kwargs
+                )
+                self.raw_search_results_df["query"] = self.raw_search_results_df[
+                    "query"
+                ].astype("category")
+                progress.update(task, advance=1)
         log.info(
             f"Initial search returned {len(self.raw_search_results_df):,} proteins, found in {self.raw_search_results_df.assembly_uid.nunique():,} genomes"
         )
@@ -270,8 +369,8 @@ def prioritize_input_proteins(
         max_domains_per_protein: int = None,
         max_outdegree: int = None,
         scatter: bool = False,
-        bypass_locus: List[str] = None,
-        bypass_pid: List[str] = None,
+        locus_tag_bypass_list: List[str] = None,
+        protein_id_bypass_list: List[str] = None,
     ):
         """Rank input proteins by how many (:hmm)-[:ANNOTATES]->(:protein) relationships will have to be traversed
 
@@ -281,27 +380,27 @@ def prioritize_input_proteins(
             max_domains_per_protein (int): Max domains to retain for each individual protein (highest outdegree dropped first)
             max_outdegree (int): HMM model annotations with an outdegree higher than this will be dropped
             scatter (bool, optional): Choose a random subset of proteins to search that are spread across the length of the input BGC. Defaults to False.
-            bypass_locus (List[str], optional): List of locus tags that will bypass filtering. This is the ID found in a GenBank file "/locus_tag=" field.  Defaults to None.
-            bypass_eid (List[str], optional): Less preferred than `bypass`. List of external protein IDs that will bypass filtering. This is the ID found in a GenBank file "/protein_id=" field. Defaults to None.
+            locus_tag_bypass_list (List[str], optional): List of locus tags that will bypass filtering. This is the ID found in a GenBank file "/locus_tag=" field.  Defaults to None.
+            protein_id_bypass_list (List[str], optional): Less preferred than `bypass`. List of external protein IDs that will bypass filtering. This is the ID found in a GenBank file "/protein_id=" field. Defaults to None.
         Returns:
             pd.DataFrame: pd.DataFrame({"external_id":[], "hmm_uid":[], "outdegree":[]})
         """
         log.info("Prioritizing input proteins by outdegree")
         loci_protein_ids = set()
-        if bypass_locus:
+        if locus_tag_bypass_list:
             # bypass using locus tags
             loci_protein_ids = {
                 i.uid
-                for i in self.input_assembly.loci[self.input_bgc_id].features
-                if i.locus_tag in list(bypass_locus)
+                for i in self.input_bgc.features
+                if i.locus_tag in list(locus_tag_bypass_list)
             }
-        if bypass_pid:
+        if protein_id_bypass_list:
             # bypass using an external protein ids
             loci_protein_ids.update(
                 {
                     i.uid
-                    for i in self.input_assembly.loci[self.input_bgc_id].features
-                    if i.external_id in list(bypass_pid)
+                    for i in self.input_bgc.features
+                    if i.external_id in list(protein_id_bypass_list)
                 }
             )
         len_start = self.outdegree_df["outdegree"].sum()
@@ -357,6 +456,7 @@ def prioritize_input_proteins(
                 threshold = ceil(n_input_proteins * max_query_proteins)
             else:
                 threshold = max_query_proteins
+            m_start = self.outdegree_df["outdegree"].sum()
             if scatter:
                 temp = list(
                     self.input_assembly.loci[
@@ -372,7 +472,6 @@ def prioritize_input_proteins(
                     | self.outdegree_df["protein_uid"].isin(loci_protein_ids)
                 ]
             else:
-                m_start = self.outdegree_df["outdegree"].sum()
                 log.info(
                     f"'max_query_proteins' is set to {threshold}, will limit search to {threshold} of {n_input_proteins} input proteins"
                 )
@@ -449,9 +548,9 @@ def _outdegree_table_stats(self):
         d = [
             {
                 "protein_uid": i.uid,
-                "desc": f"{i.external_id} | {i.locus_tag if i.locus_tag  else 'no-locus-tag'} | {i.description}",
+                "desc": f"{i.external_id} | {i.locus_tag if i.locus_tag else 'no-locus-tag'} | {i.description}",
             }
-            for i in self.input_assembly.loci[self.input_bgc_id].features
+            for i in self.input_bgc.features
         ]
         d = pd.DataFrame(d)
         temp = pd.merge(temp, d, on="protein_uid", how="left")
diff --git a/socialgene/utils/logging.py b/socialgene/utils/logging.py
index d5006066..c73840f3 100644
--- a/socialgene/utils/logging.py
+++ b/socialgene/utils/logging.py
@@ -1,8 +1,6 @@
 import logging
 import sys
 
-from socialgene.config import env_vars
-
 # If {rich} is installed use it, otherwise.... don't
 try:
     from rich.console import Console
@@ -11,7 +9,7 @@
     c = Console(width=150)
     # https://rich.readthedocs.io/en/stable/logging.html
     logging.basicConfig(
-        level="NOTSET",
+        level=logging.INFO,
         #  format="%(filename)s/%(module)s/%(funcName)s\::: %(message)s",
         format="%(message)s",
         datefmt="%Y-%m-%d %H:%M:%S",
@@ -25,7 +23,7 @@
 except ImportError:
     log = logging.getLogger(__name__)
 
-log.setLevel(env_vars["SOCIALGENE_LOGLEVEL"])
+# log.setLevel(env_vars["SOCIALGENE_LOGLEVEL"])
 # handler = logging.StreamHandler(stream=sys.stdout)
 
 # log.addHandler(handler)
diff --git a/socialgene/utils/ncbi_ftp.py b/socialgene/utils/ncbi_ftp.py
index 56f66d67..70487619 100644
--- a/socialgene/utils/ncbi_ftp.py
+++ b/socialgene/utils/ncbi_ftp.py
@@ -9,7 +9,7 @@ class NcbiFtp:
 
     def __init__(self):
         log.debug(
-            f'Connected to "{self.ftp.host}" on {self.ftp.port};\n\n NCBI FTP info: {self.ftp.welcome.replace("220","")}'
+            f'Connected to "{self.ftp.host}" on {self.ftp.port};\n\n NCBI FTP info: {self.ftp.welcome.replace("220", "")}'
         )
         self.ftp.set_pasv(True)
         self.assembly_paths = []
diff --git a/socialgene/utils/run_subprocess.py b/socialgene/utils/run_subprocess.py
index 06f43566..55b90de6 100644
--- a/socialgene/utils/run_subprocess.py
+++ b/socialgene/utils/run_subprocess.py
@@ -12,6 +12,7 @@ def run_subprocess(
     check=True,
     shell=False,
     capture_output=True,
+    status=False,
     **kwargs,
 ):
     """Run something in a separate process
@@ -31,11 +32,21 @@ def run_subprocess(
         command_list_string = " ".join(command_list)
     else:
         command_list_string = command_list
-    log.info(f"Executing external program:\n{command_list_string}")
-    with console.status(
-        "",
-        spinner="bouncingBar",
-    ) as status:
+    if status:
+        log.info(f"Executing external program:\n{command_list_string}")
+        with console.status(
+            "",
+            spinner="bouncingBar",
+        ) as status:
+            result = subprocess.run(
+                command_list,
+                check=check,
+                shell=shell,
+                capture_output=capture_output,
+                **kwargs,
+            )
+    else:
+        log.debug(f"Executing external program:\n{command_list_string}")
         result = subprocess.run(
             command_list,
             check=check,
@@ -43,8 +54,7 @@ def run_subprocess(
             capture_output=capture_output,
             **kwargs,
         )
-        if result.stderr:
-            log.error(f"Error code: {result.returncode}")
-            log.error(f"Error stdout: {result.stderr.decode('utf-8')}")
-            raise SystemExit
-        _ = status
+    if result.returncode != 0:
+        log.error(f"Error code: {result.returncode}")
+        log.error(f"Error stdout: {result.stderr.decode('utf-8')}")
+        raise SystemExit
diff --git a/tests/python/classes/test_mibig_fasta_parser.py b/tests/python/classes/test_mibig_fasta_parser.py
index 7b35d7d0..ca2fbbce 100644
--- a/tests/python/classes/test_mibig_fasta_parser.py
+++ b/tests/python/classes/test_mibig_fasta_parser.py
@@ -17,124 +17,146 @@ def test_fasta_file_parse():
         sg_object = SocialGene()
         gbk_path = os.path.join(FIXTURE_DIR, "lagriamide_mibig_bgc0001946.gbk")
         sg_object.parse(gbk_path)
-        sg_object.write_fasta(outpath=fp.name)
+        sg_object.write_fasta(outpath=fp.name, external_id=True)
         fasta_object = SocialGene()
         fasta_object.parse(fp.name)
 
     protein_parse_results = {
-        k: [v.description, v.external_id, v.domains]
+        k: [v.description, v.external_id, v.domains, v.sequence]
         for k, v in fasta_object.proteins.items()
     }
     assert protein_parse_results == {
         "Tdc2m3PRLsyEzjwyux6BF4arDy2mQ_Bl": [
-            "Tdc2m3PRLsyEzjwyux6BF4arDy2mQ_Bl",
-            "Tdc2m3PRLsyEzjwyux6BF4arDy2mQ_Bl",
+            "AXA20086.1",
+            "AXA20086.1",
             set(),
+            "MQEYCRLRRKLTLELSPEDAADVAQEAFERTLRYMRKHDGRVASPVGLLVRIALNLQIDRGRRRKHLPTALDESWEHPRWDITPEDEVVGRQSVTQLVETLDKLAPRRREAFVLCRLHGLTYQDAAKKMGIRPSVVREYLVDAVRACRDSVDWAVSRVKCNTPLVNGLELSRSG",
         ],
         "ptq1NGhBcUp3TIEqvAUxnnp4LOKwINvn": [
-            "ptq1NGhBcUp3TIEqvAUxnnp4LOKwINvn",
-            "ptq1NGhBcUp3TIEqvAUxnnp4LOKwINvn",
+            "AXA20087.1",
+            "AXA20087.1",
             set(),
+            "MAPTGIILGDTNGLRISLVCNPFVSPKIMPVGAIASSRSIYATIPLAMDGPVYWILWTDNPSNR",
         ],
         "-l7xLyFZbiZENPLq_GML8JyTRF1Srawr": [
-            "-l7xLyFZbiZENPLq_GML8JyTRF1Srawr",
-            "-l7xLyFZbiZENPLq_GML8JyTRF1Srawr",
+            "AXA20088.1",
+            "AXA20088.1",
             set(),
+            "MSEYIHKSHNVTVLTYHVVLWRGIEKQSLMTGLAKY",
         ],
         "T_DzOorDp3ROhRRBtuXP3xyAPorpTVD0": [
-            "T_DzOorDp3ROhRRBtuXP3xyAPorpTVD0",
-            "T_DzOorDp3ROhRRBtuXP3xyAPorpTVD0",
+            "AXA20089.1",
+            "AXA20089.1",
             set(),
+            "MSDLPPRFAKSAAVERRFSQTKQGCNAGFARAMPGLVSFFTPQFADMNKLIDYWRATVACGRMGEGMSERGRHTEFSVVLLRNRDSAPVFGVVLRA",
         ],
         "AStsOnOU5ZWxURs9PrTiWjddkuQXfanl": [
-            "AStsOnOU5ZWxURs9PrTiWjddkuQXfanl",
-            "AStsOnOU5ZWxURs9PrTiWjddkuQXfanl",
+            "AXA20090.1",
+            "AXA20090.1",
             set(),
+            "MQSVNPIGETKKALRLLQELVGRELSLPADEVPVDTDYLNMGFSSRSLIGLIQQLSSLLRTKLNPSVLFDYRTLTEFADYLAEHHAQWLTAIEREQPAERNQEAGDETSVAVPLSEAQRGLWFLQKNHPWMAAYNVPLCLRLSPRVQRERMRQACAWLPRRWPVLGASVQRADGRLVMQTQPARKLTWQEHHAEDWSEAQRLAWLGDRLAEPFDVDNGPLLRAYWLGGEPDGASRLLLVIHHLVIDAVSVGVLLAGLRKTYADLEGWRDLSGAVDDSAYGAFVAAEAERLAGAEGFARLAYWREQLADVPGSLGLPLDRARGVTPSFKGCTLRRELQAALGESLRAYTERHRVYPSTLLLAVFQGLLSRHAGRDDVVVGMAMDERDAASAGLVGMFVNMLPMRARGLGRRGFVEDMQALQRQLVDAMAQAYPFPALVRELGLSGSDASPLFQAAFLYQDTLDIDVLNGVDDWVWEEALYQEGEYELVLEVRRRLKGYALYFKYDPTLWDKSTIERWLAHYLRLLEGVLAAPQKRLGEHELRGEHERARLAALQGEVRDWALTPVSILFERQAIANAQAWAVSDDQQRWCYAELAAHSAAIAQRLHVQGIGTGSIVGVCQGRSPWLLASLLGIWQAGAAYIPLDPAYPVERLRYMLEDSGASAVLSDTSHLVLVQALAGMLPVWAADAAAPSTSAPSFPPPQPEDLAYVLYTSGSTGRPKGVRISHGALSNFLQSMAEKPGLTAGDRLLAITTISFDIAGLELYLPLIGGGECVLCPEEIVRDARRLKAEVEHVRPTLMQATPATWSMLFHAGWRNAEELKVLCGGEALPARLKQRFDEIGTTVWNLYGPTETTIWSTLAKLDAEDTSIHIGQPIANTQAYVLDQEGREQPIGIEGELYLGGAGLAQGYHGQPERTAQAFIDHPLGRLYKTGDLARWRADGQLEYRGRSDQQVKVNGHRVEPGEIEAVLEQSGLVKQAAIVLREGAHGSQLAAWCVPTKVTQGDTWLDPVQIQVLQAQLRDRVPAYMQPSIWLGTAALPKTLNGKIDRQVLSARALPEQREEKAPPSAVTRSAARRALESRLQALWAQVLERSTVSRDERFMEAGGNSVAAVLLAERIQAEFGRAFGVAQVFAYTSVAAQAAYLDASDLTFEALANEPIATQVIVAEPERDASGVAEDALAIIGIACHFPGAEDHRAFWNNLRAGHDSGKLFSPEALRAAGVPERLIADPHYVPIRYGIEGKAEFDADFFNLSPRAASLMDPQYRLLLQQAWAAIEDAGYTPEVIPDTGVFMSASFSAYQARLQDPSAVEAGDRYVAWLMSQGGSLPTLISYHLGLTGPSLFIQTNCSSFLSALAAARSSLLARESRLALVGAATLFTEDSKGYLHEPGLNFSSDGHCKTFDASADGMVSGEGCGVILLKQAREAVADGDHIYALLRGIAVNNDGADKAGFYAPSVRGQSEVIEQALRQARIDPGQIGYVEAHGTGTRLGDPIEVTALSETYRRHTQATQYCAIGSVKSNLGHLDTAAGLAGCIKLALSLQHGEIPPTLHYQQPNPAIDFAASPFYVAEHLQAWPPGPRLAGLSAFGIGGTNTHAILEAYLEESVAARVDGAQLIVLSARTQERLHAVERQLLDHLDSSASLPSLRDLAYTLQVGRRGMTHRLAFVVEDVSALRRQLSDHLAGRKVGHEGDCDRGHAVLHAFENDGDSARLFAQWAAAGKLDKLAALWVQGLSLDWALLHGGQRPRRVSLPTYPFERTRHWLEVPLAASAVSPESPELATERSWDGMSYLPRWVATPATAPDVEEVPAPASLLIVAPEASARADELFEWCTRRWPSAALRLIRLGRENLWLGEAERVCDSFDDGQALTEALREGTWPDSVVFLAEEAGSTLNWPGHPESAEAQLLRVQQALSQSQPAQRIEFYLVTIEANASDALTGGGLSGLAYALAQGDHRLRLRHLSLDADVWSASSWWQLWAEPASDRGERVRFSGGERWRQRFDRLNWGSLRDGGLKQGGVYLIAGGSGTLGIAISRYLIERYRARVIWLGRSRADAPELVARRQVLEAGALLPGYVQADLTDATAVHEAVARARQIHGTIDGAIFSAMYRGADAPAERWSPTALAGAVAVKALGARHFYQALLGESLDFLCYYSSVQSFAFLSARNSAAYAVGVAAADRYVQLIRAQSPFRVGLIHWGYWQDTLAGTALEQDLARHFTGIHADEACVFFERFVAALGQGMLDQAICLKASDTVRDVMPSTVDDVVVLTTAGTPSFLDGFDAAALRSTVMPPDWTELDRRLRGLLCAQLRYLGLFDQAGVSWESEQLRRKLGVIDDYRRWWDECCTEMLEKEGWIRTRKGRVELLQALSLEQADALWQDWEHDKADYLKDPQLRAALLLVEDCLRHLPAVLLGRTSATSVIFADGSMSKVAGLYQGTAWTDSFNHQVADTVEVYVRHRLAADPLARLRVLEVGAGTGGTTAKVLPRLAAIGAPMLEYCYTDLSEAFLAQARERHLANYPYLRTCRCDIERPLAEQGIVPGSYDIVIATNCLHATHDIRATLRHVQAALRCHGVLIANEGVSKSLLGTLTFGLLEGWWLYDDPQLRIPGSPLLDSAHWRALLDEAGMRPVCLDGPGRELQQVWVAQSRGLIRPGGFASASATRLPAPSSVPAKAGVAKPVVSASPVSSSEVVPYAAIAAEIRACLAETLKREAAGLADETAFSDYGIDSILSVALVKRLNQRLGVQLGQAVIYDYSTIAALSRHVLERRDGQAAMVPRQFGVVAASESTVVEVPVLAPVTVSEAVPPAAEAARPTPIAVIGMALQVPDAEDADTFWANLLSGHDSIRELPEAYGRPAHGASPRGGALQGRDYFDAAFFGLSNEEAAGMSPAQRLVLEEGWKALEDAGYDPRSLRGSRTAVFVGAEPSGFFQGSFSGSSEAIIASRLSYLLDLKGPALVVNTGCSSGAMAIHLACESLRRGEIQLALSGGVASALSVEGLRHLADAGMLSPQGHCLSFEATGDGMVLSEAVGMLVLKRLDQAIADGDAIHGVIAASGSNQDGTSNGITAPNGRAQEDLLGEIWARHGIAPEHISHFEVHGTGTSLGDAVEGNAISRAFGRVTARRGFCVIGTSKTHIGHTGAASGVVGLIKLLLSLRHRQLPGLLHFERANPLIDWNASALRLPEATTAWEGEPDLPRYAGLNAFGHSGTNVHMVVREYGPGEGDQRGPQLLECAQEVLLPLSAASALQLARSARRLLDFLDEEAGHGQSRPSLAELAYTCQTGRSALVERAVLKAGDREQLRALLLALAEQRPMAGLWRGSVDPETTLVAAANRDGLDELAESWIRGAEVDWQKLYGPVRPRRCHLPAYPFDRRHFPWHLAASVPSPVSRHRVPVATEPIATLTTVTAMPAWRFVLAATAEAGAEPRAQATQWLCRWLAMRLQRPVQALNPQLSYRELGLTSLGLVALSEELSRLLGVVVLPSLLFEYPSIASLAAHLAEQHAALLSRVQSIPLTGADSPSVGTPAEASVPDRVLSVLQAYRNGALNHAQARTLLAETTP",
         ],
         "IsCrCflKZgA6ghoHxXclbsOix0bbDkwZ": [
-            "IsCrCflKZgA6ghoHxXclbsOix0bbDkwZ",
-            "IsCrCflKZgA6ghoHxXclbsOix0bbDkwZ",
+            "AXA20091.1",
+            "AXA20091.1",
             set(),
+            "MNAFMTLDQMIALYKAGKVSVDQVKEAFARLPDATADTGIVTDVELSETQRGLWSLQKAYPWLAAYNVPLCLRLPADLDRERFLRACAGLLERWPVLGASVEQQDGPLRLRMASVSGLSLEQDDGLAWSESERLDWLRERIEQPFDLAKGPLLRAHWLEGSGGGESLFLLVVHHLVVDGASVGLLLAGLHEAYRALGNGEAMPSASGSDGYLGFVQAERVRLQGDQAARRLAYWREQMADAPSSLGLPLDRPRSATPSFKGRTLRRELLSALGDSLNAYTEYHGVYPSTLLLAVFQGLLSRHAGCDDVVVGMAIDERDAASAGLVGMFVNMLPMRARGLGQRGFGEDVQALQRQLVDAMAQAYPFPALVRELGLSGGEASPLFQAAFLYQDMHDMLDTEALAEVSKWTWEEALYQEGEYELVLEIRRRAQGYVLYFKYDPMLWDESTIERWLAHYLHLLEGVLADPRKRLGEHELRGEHERAWLAAWQGEVRDWALTPVPALFEHQVAANAQAWAVSDDQQRWCYAELAAYGTAIAQRLHAQGIGSGSIVGVCQGRSPWLLASLLGIWRAGAAYVPLDPAYPVERLRYMLEDSGASAVLSDTLHLAQVQALAGILPVWAADAIGPLTSVPLPTLQPEDLAYVLYTSGSTGRPKGVRISHGALSNFLQSMAEQPGLMAGDRLLAITTISFDIAGLELYLPLIGGGECVLCPAEIARDGRRLKAEVERVRPTLLQATPATWSMLFHAGWHNAERLKVLCGGEALPVRLKQRFDEIGTTVWNLYGPTETTIWSTLAKLDAEDTSIHIGQPIANTQAYVLDQEGREQPIGIEGELYLGGAGLAQGYHGQPERTAQAFIDHSLGRLYKTGDLARWRADGQLEHRGRSDQQVKVNGHRVEPGEIEAVLEQSGLVKQAAIVLREGAHGSQLAAWCVPTKGTHEDTWLDPVQIQVLQAQLRDRVPAYMQPSIWLGTAVLPQTPNGKVDRRVLCARALPAQREANTQPPSATPRNAVRQELESRLQALWIEVLERPMVDRDERFMEAGGNSVAAVLLAERIQAEFGRVFGVAQVFAHTSVAAQAAYLDEVQPVSTPGETTDSSAPKPDTPETVLAEDTLAIIGIACHFPGAEDHRAFWENLRAGHDSGKLFSPEALREAGVPEPLIADPQYVPVHYGIEGKAEFDAEFFNLPPRTVTRMDPPFRLLLQHAWAAIEDAGYTPEAIPDTAVYMATGGPLRLAELTEPGSPGDSDDYVNWLLAQPGTVATMVSYQLGLRGPSYAVHANCSSSLVGMHAAAQSLRSGEVRTALVGAASLFGDDSLGYRYEPGLNFSSDGHCKPFDLRADGLVAGEGVAVVLLKRAREAVADGDHIYALLRSVAVNNDGADKAGFYAPSVRGQSEVIEQALRQACIDPDQIGYVEAHGTGTRLGDPIEVTALSETYRRHTQATQYCAIGSVKSNLGHLDTAAGLAGCIKLALSLEHGEIPPTLHYQQPNPAIDFAASPFYVAEHLQAWPPGPRLAGLSAFGIGGTNTHAILEAWPPATARLLQSEPAPGVAQVFPLSAMQADRLPVYARRLATFLRGPYAASLRLADIAYTLQTGRRSMRSRCAFVAETLDQLLAALDDCADTVDTQDAAAASPPAPADGWQLQRDAHGLAAAWQQGEPIDWNALQAVAPWSARRVSLPTYPFSPKRWPRTAARVAASTQAAVLHPLLHRNTSDFAAYRYSARFGGDEFFLADHVMGGHKVLPGVAHLEMACAAFAQAIAAPQAALELRDVVWIRPVGVDAPLDVHTVLRPQADGSADFEICSQPDAAGERIVHSQGRVMPVDTVESEAELLALDTLRQQLAQAHRDAASYYRDFEQGGASYGPAFRALEQLWLGDGQALARLVLPAARHEGAERYGLHPSLLDAAVQAAFIGINALRAAAGVASSEQGGSLPFELKRVQLLVPCEPVMWAWVRYTQGIGAGERVQRMDVDLCDEQGRVRVRLHGLARLAALVPKLAAPSLQLPQWEDAPLVYGADAPPAYAQRLLVLCGLPAHGLEAESGADLVERLEAGTGLDSVQDYALRLLARVQVFMRDKPRGRCLLQVVIPAKGEMVSLAALAGLVRCLRLEHPGVSAQLIAVDPAIAAPALAALLREEGREAAEAQIRHLHGRRQRRALVPLLPSAATTVSQPWRKGGVYLITGGAGGLGWLFAQEIAARCEGAGIILLGRSALAPGQATRIERLGREGTRVVYRQADVTDAAAVEAAVQAARTLGPLRGVLHAAGVLRDGLLLNKSEEQARAVLAPKLTGSLVLDRATRELDLDFFVLFSSISALGSVGQSDYAVANAFLDEFAHWRATAVARGDRRGRSLAIAWPLWAEGGMRPAVAALAGMPEAWRSVAMPSAQGLAYFYRALASVYAQVVVPSLAQAAPAEATSLVAGAVVASTVILPTAPAAPSSTPSTHKASMASAAVSMIDVEAFAARLRGVVLGLVTQLLGVPTEQVDLDEEFNAFGFDSISLTNLANRLNQELRLNLTPAIFFEHASVNRFVEHLLAEHADRLDFLVQTAAPARAEEAKSMPTVTSAVAATASDDIAIIGMSARLPMAVDLDEFWDNLLAGRDCIGEIPADRWDWREIYGDPLREPNKTDAKWGGFIDGVADFDPLFFGISPREAEAMDPHQRLLMSYVWQALEDAGYTRQALSGSDTGVFVGLGGSDYGQRVVAADGGVESHTLMGLLPSMAPARMSHFMNWHGPSEFIDTACSSSLVAVHRAAQAIAAGDCSLAVVGGVMAILSPTSHIGFSKAGMLSKDGRCKTFSSEADGYVRGEGVGMLVLKRLSAARADGDCIHAVIRASVVNHGGRANTLTSPNPSAQAELIESACRKAGVAVEQIGYIEAHGTGTRLGDPIEINGLKSAFKTLGHPMRGAWCGLGSVKTNIGHLELAAGIAGLLKLVLQMRHRTLVASLHCEQVNPYIELEGSPFYLVRENRPWPTGRDAFGRPAPRLAGVSSFGFGGVNAHVLVQEHLADAPPEEDEASVLIVLSARSENALRGRARDLLVYLERRGLDRSTASVYDNRRTELEQHIRLALAGLLDVDVHEISIDESFEAYGLDALARNRLAAALDESSPALLAATLRAGSVAHLADEWLASQGYAPVSVASVESSIRLGDLAYTLQVGREPMEHRLGFIAASFAQLNERLRAFLDGQDGMHELHRGQAKFGKNGLSLLGADDDMEGTIASWVVKKKYALMLKLWVNGMELDWRLLHVGRQLQRISLPAYPFDYRRCWVGETPAAARETDKAAGASEPPALDVALDETSGEVNQAESAQFLLPVWDAVHPELLADTPPQGRILLYGGDQGMVDAWRGGAVGLATLVVTPGASIEALSAQLAAAGSICEVLFVAPGEADVDPGNAQLIDAQQQGVLGLFRLVKALLATGHGLRDLAWTVVTTQAVDLGDGLPVRPAHAAIHGLAGALAREYPHWRLHLVDVAVDEADDWRNWRRLPPEENGATWCRRGGEWFRQSLLPYQPDTTNLPLPYRQGGIYLVIGGAGGLGEAWSRHMIERYQAQLIWLGRSAPNARIGERIDALAALGPVPRYIQADAGDEAALRRAAAEIAREFPRLDGIVHSALVLADQGLASMSEAEFSGALAAKVDTAVLSTRVFTNQPLDFVLFFSSMMSFGRAAGQSNYAAGCMFADAYARRLAQLARYPVKIVNWGYWGSVGIVSRADYQARMRRAGIGSIEPAEGMRALEVLLRAPVPQLGFVKTRIGVGGDSLRQYADTIPAVTARVMLDTPVPALRREDLLFADQRLESLVRGLLARQLETLGEHPVLPLYQRWLAESRRVLAEVPPPATTVEALWRAWDKHALTRRHLDGSTPELDLLRNCLQALPAILLGQRTATEVLFPQSSLSLVEAIYRDNPVADLFNGRLQQWVLAYLRERLARDPRAQLRILEIGAGTGGTSAGLLAALRPVHEHIAEYSFTDVSRAFLIQAQERFSVGFPSLVTRLFDVEQPLAAQDLPADYFDLVVAANVLHATSEIRTALRNAKAALRKGGVLLLNEIAGQSLFTHLSFGLLEGWWRYRDPAVRLPASPALSPKNWARVLREEGFGEIDFLLKERLDLGQQLVVAQSNGLVRQAEARGGGAEKGRHGSVVVSNTAFVATQARPAAPAVPPQAVAHATVEEPVAVDAVVHRVLLEELARTLKLDSGEIDTQMPFSDYGIDSILGVGLVKQFNDRLGLNLNTTILFEHSSLERLVVHILQRHRREAITALGLVVGPVLGAAEPAPPPAPAVAASCESGRASGAVDELIPAPEVELCRAETGPLEIAVIGMSAQVPGADDAETFWHNLMHGVDGVTQLPAAYLDRARQGDDKQAYYLWGGTLAARAAFDPQFFSISPREAKSMNPHQRLVLQESWKALEDAGYDPRSLAQRRVGSFVGAEPSGYFHETFTGSSDAIIASRLAYFLDLKGPALVINTGCSSSATAIYLACESLRHGESELALAGGVYAVLNETGLVSLAQLDMLSNSGRCHSFDAAADGTVFSEAVGMVVLKRMDDALRDGDPIYASIVASGINQDGASNGITAPSGEAQEQLLLETYRRFSIDPRHIGYVEAHGTGTRLGDPVEANALLRAFRAHTTDRDYCAVGSAKAHIGHTAAASGVIGLVKLLLSLKHGRTPGLLHFRELNPLIEWQDSPFFIPTANRDWPVESGRPRMAALNSFGHSGTNVHLVLKEYVDPVEAADDAQQPGWHLLPLSATNETRLRAYAGKLARYLREAGEGVNLGDVAHTLQHGRIALKRRWCLLVANAAGAIAQLQAYADGADVAELAGVHGLADGTLVTDRIEAAATPELLAALARRWASGAMVDWPLAGPTARRIHLPSYPFARDHYWMDGGALAATTVRTVTAAPRVPIMHPLLHARVDTATGPRFSAQLSGEEAFFRDHRILGRPTFPGAAYLEMACAAAARVLGTEALRLSAVVWSRPLQASAGGVALGIELQARDGDGCWRFEIAAAGQVHCQGLAAKAEARENAFERQDLGALLARMDRQGVGHDDCYAAFDAVGIHYGPSHRAIAHLHLGHDEVLARLVLDPAAALDSEATAAAYRLHPSLLDAALQATLGLSVGSARGGAYVPFALERLVLCASTGFQLWAWVRYTAGSRADEAVRKYDIDLLDDQGGLIARLLGFAFRPVEAVAPASADPVLLWCRDWKPDPVPLVGDSAPVRLSVLVSDRAAWRFDEPTDGSLLAHLQIDSIQEAPDQWYGRVLRGLFELIKAQAQKTVQACLLQVLVPAWGRAALLSGLSGLLRTATLEFPRLSTQLLAFDAPPVGLSALLEANARQPWHAQLRYLDGTRLAPAWAEVAGSTGAQMSALPWREHGVYLLTGGLGGLGRLLAEEILGQTPDATVVLCGRAAPDAEAAQWLRTTGGNGRLRYRRADVADAAQVREMVADIVVCCGTLHGVFHSAGVLRDSYLPGKTSAQIDAVLAPKVAGTVNLDEATQSLHLDLFVLFAAGAGALGNPGQADYAAANAFLDAYAGWRNEQAAQGRRRGQAVAFDWPLWAEGGMRISDSQREAIEAANGMRALERDEGIRALYRGIASGEAQLLVGVGDHARLRAWIQHLHAEPTAPAARSAQTGTVVPAGTVRALRERTRQFLIDSAASILELQPQDLDPRDELSDYGFDSITLTELTHRLNRQFELELVPTVLFEHPTIAKLTAHLLESFPEALARAFPEDVAGPPPRATQAPLATPERDMGEMRAADALRNTNTNTHAGAVAIIGMSGRFPGAPDLASFWQVLAEGRDCIGEIPADRWDWRQYYGDATQDGRHTRVKEAGFIEGVAEFDPLFFGITPREAGLMDPQQRLLLTHAWAAIEDAGYAPSSLAGGRTAIFVGTAPSGYSSLIEQAAMGLDGHSSTGSVASLGPNRLSYLLDLHGPSEPVETACSSALVAIHRAVRAIRHGDCETALAGGVNTIVLPEVHISFDKAGMLSPDGRCKTFSRHADGYGRGEGVGILLLKDLAAAERDGDAIHAVIRSTVENHGGRASSLTAPNSKAQTELIKAAVRDAGIEADSIGYIETHGTGTALGDPIEINGLKAAFEELQAEAGGAAPIPDSCALGSVKTNIGHLELAAGVAGVIKVVLQLRHRTLARSLHAEEPNPYIRLAGTPFYLLGETRPWPMPRDAGGRPLPRRAGVSSFGFGGVNAHVLLEEYVGSRAELPASEPRGPYLFVLSARQPARLVEQAAQLVAFLRDETRPALAELIYTLQVGRDAMEERAAFLVADYAELTQRLAEFVAGRAGAWLHRGRARHDSVAATLFDDQNEQREAVRVWLAQGRHDKLLGLWTQGLEVDWRVLHAGPPPRRAHLPTYAFARERYWPPRPDRPAARPETRVNPLMMQEEAANEDELDRHSALLDQLIHRQISADEAVRLARRQEQL",
         ],
         "Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5": [
-            "Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5",
-            "Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5",
+            "AXA20092.1",
+            "AXA20092.1",
             set(),
+            "MTDHVAEIYHQVASGQLSKDEALARLCQVKDEQAAQGVAKQVHKPAQPVAVSREAVTQALAALYAGQSKIAPEAIDPLEPLESYGIDSIVIAGMNRELGERFASLSKTLFFEHRTLDSLAGFLWREREPACRAWLLASGTTVRTVAASPASRIEVAASAAAASAISDEPIPGDRAGTGAPETFGPANGMAVDASAWPPIAIVGLAGRYPQAADLDAFWRNLREGRDCIVEVPVERWPLDGFYEPDPDRAIASGRSYGKWGGFLEGFADFDALFFSISPLEAMGMDPQERLFLQSAWHALEDAGYTRESLAERCGGRVGVFAGVTRNGFGLLGLEAWHAGGMVFSQPAFSSIPNRVSYALDLRGPSLPVDTMCSSSLTAIHEACAALHRGDCVMALAGGVNLCVHPASYVGLATGRMLSRDGRCRSFGAGGDGYVPGEGVGVVMLKPLAEAQASGDRIHGVIRATSVNHGGRTNGFTVPNPTAQAELIAESLRKSGIHPRAIGYVEAHGTGTALGDPIEVSGLVQAFAPYTRERGFCALGSAKSNLGHLEAAAGIAGLTKVLLQMRHGELAPSLHAAQLNPNIDFEGTPFVVQRELAPWAEPELDLDGQLRRYPRIASVSSFGAGGANAHLLVEQYLAPAVPSVSSAGPQAIVLSARTPERLCAAVQALLDHVESGGGTAAGLAANLSAWLVEELAAIVGVEATAIDPHETLANLGVEILHRTRWYERVQERLNLPWSLKNFLDQDSVQQLGNTLLREQGATVVAQFHAPVAAPVLADLAYTLQIGREAMPERLAFVAADLAELATGLRGFLDGASRLPLWHGKAARGRALPARVDQAQWQAWIDARDWSQLLPAWVAGHELPWRDMPGAPGARRIGLPLYPFAAERYWVDPQSLRPRPTASLESRLHPLVRKRVDSVEGPAFLSRFSGAESFFSDHRVGGRSILPGVAYLEMARAAASLAADGATIRSLRNVVWARPIEAGADGVAVTLRLQPHQQGSWRYEVLGADDGVHGQGLAELALPEAPPVDLDLAALRARMQGGALANEALYQAYAAMGIAYGAAHRGFVQALVGESELLAELCLPSAVQADAQAYVLHPSLMDAAFQATLGLYLLSKRADAAKAMLPFALETLELHWAPPARVWAWIRSRGERSGIEKFDIELCDEQGRICVRMLGFSSRVLEAPAVSPEVPPAVLEAPSLLLSRYAWQDAPARRAAPDPALTRRLLLVSIAPQPVVWRQLGQGELLQAAAVQPEQACASLYVQIFERVQAWLEEKGRDTCLWQLAISGQGAELLLAGLSGLLRSASQESRRLLGQLMILEGDEDLASLRARLDENAASPFDSLVRYRAGRRETWHLLELPSNDGEAEAAPLPWRQNGVYLLSGGAGELGLLFVEEIARRATGATLVLTGRSALPDARRARLDALCEQGAQYRYEPVDVTDRQAVTQLVEYVVAEYGRLDGVLHIAGVLRDSYILKKDRAAFEQVLAPKLLGTANLDHATRTLDLDFFLMFSSSAAIFGNLGQTDYAAANGFMDAYAAYRQARGGRGRSLSVNWPLWRDGGMGMEAATEEMMLANTGMVAMRTPSGFSALARALHSDLPQVAVMEGLVERMRQKLLVPSAPSMQAVPVASASAAIAPSAQTDHHAEIVARVARGLRQMVAELLKLELDQIDIEDDLSDYGFDSITFTSFSNRINKQFGLELIPTIFFEYPDIAGLAGHLAEAHGAALGASLGLLAASAQGDRAQTRSAMSAEAVATANVSAEMPVPLAPQLSDQSAAASNTPVARRGVAVIGISGSFPGADGVDALWQLLERGGDAICEVPASRWDWRRCLPPGESEAVQARVRWGGFIDGVDRFDPLFFGISPREAELMDPQQRLLLSYAWLAVEDAGYAPQSLGGTDTGLFVGTAVGSYGSLVVQAGRSRDAYSSTSSVASIGPSRVSYFLDWHGPSEPIETACSSSLVAVHRAVQAIESGRCEAVLAGGVNTISTPEAHIAFSKAGMLSVDGRCQTFSAKANGYVRGEGVGMLFLKDLVAAERDGDTIHAVIVGSAENHGGRATSLTAPNPKAQAALLKAAYAKAGFDPRLLGYIEVHGTGTELGDPIEVNALKSAFKDLYQRAGVEPPGQPHCGLGSIKTNIGHLELAAGVAGIIKVLLQLRHRTLVRSLHGEQVNPYVQLEGSPFYLVQENLPWDAPRDAQGREQPRRAGVSSFGFGGVNAHVVLEEYVAPPARATAPAACPVLVPLSARNETRLREAAARLADFAAAHADDAALDLHDLAYTLQVGRDAMEARLGLMVSDKAELARCLRAWLDDAGAGEVFQAAPGKAQKEALALFAGDEELAGVVEGWWRNGKQAKLLDLWVKGLDLDWARLRAGAGRRRISLPGYPFANERYWLKPVSAETAALGLVASTPIETDEAAVLFFEENWHPYPIREALIASSTRTLLCCLSDATHRKALREAVFRYDPKWHLVFLDRQAPEPFDRQGWTDALCLLEQGGPVIDAVLYLRPLEEAGLRLAEAAPLGLVQALGSMKTRPARLVLGGEYADESERSQLEAWIGLERSIGLALPGCRAVTVLREAGDTIDWVAWTQLLRTALGEAAPRNLLADRDSLRHLQVQPLEPRAAAVADLGTTVLITGGTGGLGLILARHLAVGRRCNLVLVGRSPFDVVRQAAVQALQAAGSEVLYLSADVADAVAMREVVAQARARFGSIDSVIHAAGIQHAVPLADKQSEDMRRVLDPKVRGALVLDQVLAGEPLRLVCYFSSSSSVLGDFGSADYALANRFLSAHALARERRRARGERAGRSLSIEWPLWREGGMGVGDDAGTALYLKSSGQRLLEQTEGLAAFERLLASGATRALVLVGERERLHRMLGLAQVPSAPATQAMAVLMPSQTQTFSTASLEEQVSAELSVLIGDQVKLAPELLDAESNLADFGLDSFGLAELARALSARYDIEVAPSIFFAYSSIARLVGYLLDKHRAEVQAHRHRTATRVDVAAIAPQPASLAPPAAISMSTPAPPQLPVANAIEPAPTVPAFDGEREPIAIIGISGRFPKARDVDQMWRILAEGIDAVDEIPVERFDWRDYYCGLEAQPGRTNSKWAGCLDGVDEFDPLFFEISPREALAMDPRQRLLLQESWNALEDAGYGPHQLRAGPVGIFVGVEEGDYQRVVPDPGVTSNHNGILASRLAYFLDLNGPVLAINTACSSGLVALHQACASLLSGESDTAIAAGANLILTPEPYIGMSQAGMLSPDGRCRAFDRSANGMVPGEAVAVVVLKRWSRAVADGDPIRGLIRASGINHDGRSNGITAPNALAQASLVRQVQRAAGVLPEQIDYVVTHGTGTRLGDPVEIQALVEAFGQPVDGRAYCALTSSKGNFGHTFAASGLLSLIGLVKALEYDTIPPSLYCDQDSDYIAWRDSAFRVNKQARSWPRASGRARLGAVSAFGMSGTNAHVLVQEAPVAVARVAVAQTDVVLALSGKTEAALRERLFGLRDWLASAAAERCELASVSRTLLDGRHHFAHRAAVVVANRASAIAALEHLATLDTADGPDYYLGKAPRGFKGEVALRERAANWPALPSVDAAAYRERLGELARLHCQGYTVAWSALDGLQPAARVHLPGYPFARESYWPKTRISPPVATSVPASPAFPSSHSTPVVISLRPMLRTELSDQARGHARACYVARFSGEEFFLRDHRVRGQAVLPGVAYLELARAALEASSGRPVPSGLQLRHVTWVQPLMVDEPGVEAYIDLHRQDNGEWRYELASGAHDESERYLHGQGFLALVAQAEPTALDLSVLHGNCRVTEFDSAACYAAYQAVGIEYGPSFRAVQRIWVGEGQALVQLRLPVEALSDSGAYTLHPSLLDGALQASIGLAMAQATQGGEPMLSLPFALDSLVLHWPCPNETWVWIRPTPGAQSSRVRKLDLDLCDAQGRVCVALRGFSARLVAQGGTAQPALIPARVEAERVSMAAPINGLASASLPAKAKGVVPILAPAAKATGASTALPATTEGNASSAIPVVKTGAAPGAWLPVGLTMLAPLWTVRRVDDGSEPPAPVHMLLIGGDATQRAIWRQAYPQLRAIDVAPSTTIDELRGQLAATGVIDELVWIAPAQHSQDPTDEALLTAQASGTLALFRLVKALLAEDYASRRLAVTVLTRATQQVHPQDLVAPAHATVHGLAGSLAKEYPHWSVRLIDLDGQNADPPPERCRALPVGSESWAWRRGEWHKPELIALDEPTRGKVPAPYREGGIYVVIGGAGGLGEVWTRHLIEHYRAQVVWIGRRAEDAGLRARLAALAAHGSAPVYLQADAGNRLALSRARETILQRHGRIDGVVHSALVLQDRSLARMDETTLQSALRPKLDVSLRIAQVFADAALDFVLFFSSMMSFSRAAGQGNYAAGCTFKDALALALARRWPGAVKVMNWGYWGSVGVVADARYQERMSRAGIGSIEAEEAMVVLERLLGGPDAQLGLIKLSRAQAVEGVRDDLRGARYGAALPALLPQLAARPLPPEHASRLAAAQAALPPQAMQALSLRLLGQALLGFSLDGRHLLPGGAAGLALAGHYRRWYDTSLRLLDAGGWLQSLPNGDYQILATAGQQDAWPEWEAARAAWLANPQQQAWAQLLEVCLRALPELLTGQRKATDVMFPNSSLRLVEGIYRGNPIADLHNHILFDALEAYVLERLAREPGTRLRLLEIGAGTGGTSAGLLQRLDRYAANIDEYCYTDLSKAFLLHAEQHYAPGRPFLRTKRFNVEEPPQAQGIAADSYDIVVAANVLHATVNIRRTLRHAKVPLRAGGLLALNELGELSLLTHLSFGLLDGWWLYEDPALRLEGSPGLSSEGWERVLAEEGYAPLWRPAEECNRYGQQVLLAQSDGRVKRDVAVPPEMAAAPVEEVSAPASAFTSAQVADSTPAATFAPVTAPIPVPDSRDLEQAVADHVRTLLRECIGKGLDLDPRRIEADRSFSEYGVDSILAVQLVNEINQRLGIVLQTTVLFDYSHLDVLAEYLEQTHQAALRASLPEVSEVPALQAASTLAPKIQAQPSGVAFPLISPTQPIGATLPFVPPSVTGSHRRALISGPGQIQDLRLVAMEVPASLQPRQVRVAVFASSLNFSDLLCVMGLYPNMPAYPFTPGIEASGLVLEVGSAVSTLCPGDEVVCLAQGCHATEIVCHETQAWAKSPQLSFEQACALPVVALTMIDAFHKADLQPGECILIQTAAGGTGLIAMQLARHYGATILATAGSQEKLDYLRDQGAQHLINYREQDFEAEVARITGGRGVDVVINTLSGEAIDKGLRSLSPGGRYIEIAMMALKSAQAVDLSVLDSNQSFFSIDLARLIAERPEKLEQYRRELASLVEQGVLLPTMSRVFALDQLHDAYRYLQDRRNIGKVVLQVPQAVPLADQASAARAVDAVAGVHKAQPVPVNYADEPIAVIGMSGRFAHSPDLDSFWSHLAKGHDLVDPVLRWDLSPSGGRCRDGSFLDEIDRFDPLFFRMSGLEATYMDPQQRLFLEEAWHTLEDAGYAGEAVKGKLCGVYVGCTRGDYAQLCKSAPPQAFWGNSGALIPARIAYYLDLQGPAVAVDTACSSSLVAVHLACQGLRSGDTELALAGGVFVQSTPGFYLAANPAGMLSATGRCHAFDESADGFVPGEGVGAILLKRLSDAIADGDHIHGVIRGGAINQDGRSNGITAPSARSQERLERQVYDRYAVHPETLQMIEAHGTGTQLGDPIEYRALRQAFGHYTQRVGFCALGSVKTNIGHLANAAGIAGILKILLALRHRQLPPSLHFRKGNPAIDFEGSPFYVNTELRLWPAGERAPRRGAVSSFGFSGTNAHLVIEEAPAVPLVARATRRELELVVLSARTAGQLREQAARLLAHCQAQPQTSLGDLAYTLLCGREHRGYRLAAVVRDLAELCEVLSAWLEQGDDSRLQLGALDESGVREQLQQRRLGQVAIETVRAGQLEKLSSVAELFAQGYKLDYAGLFGSGYRRLALPTYPFAQGRYWVDDSLQHAVVPSTPATAPVVPTPVVPAPAVTQAEARQAPSRISTVPDQVMREASVAYLKQLVATTLRVSPTEISAHEPLERYGIDSILVVQLTDSLRQHFDSVGSTLLFEVQTIDALAERLLATEAPALARQLGMDAVAPLEATGSAIEAELPESPPPQPETNSQVQPAPAVVTVAETVGASAAAESSQPKAHGDVAVIGMSGRYPKAIDLNEFWWNLRAGRDCIDEVPAQRWDWRKHFDAQRGLHGRSYSRWGGFIDGVDQFDPRFFRIPPSEAEHIDPQERLFLQTAWLAIEDAGYTPSTLSAKRRVGVFVGAANSTYTLLPSHWSIANRVSFALDFHGPSLAVNSACSSSLTALHLALDSLAHGSSEVAVVGGVSLVLHPMHFNRLSSLGMLSSDAHSRPLGEHADGFVDGEGVGALLLKPLQRAIEDGDSIHGVIKGSMVNAAGKTRSFAVPDAAAQARLVREAQARAGVEADTIGYLEAHSNGGELGDITEMQGLAEAFAGTAERGHRCAIGSVKSNIGYCESAAGIAGLTKVLLQLRYGELVPTLHARCANPRIDFAGTPFALQQELSAWPRPANHPRRAGVSAFGVGGAYAHVIVEEYVAPVETQPEATGRALPIVLSAANAERLRVLAKRLAGFLGSEAGRRTALTDLAYTLQVGREPLAERLGFIAESVEQVREVLLAVAEDREVPLPLVRASLDRGRAGWAMFAEDEDFKRTVEQWIAREKHASLLDLWCRGYPLDWRHLYAAHRPRRIGLLPGYPFAEESYWAPESLRYAGVLEDADAFDATPFEPDQPAGEQS",
         ],
         "RyDIaUZc_b21_kQalx7J3yNO4l5f-439": [
-            "RyDIaUZc_b21_kQalx7J3yNO4l5f-439",
-            "RyDIaUZc_b21_kQalx7J3yNO4l5f-439",
+            "AXA20093.1",
+            "AXA20093.1",
             set(),
+            "MKPNLNQDFDATPSSHAADRRPQAGAGGCVRAPGHVDTAIIGISARYPKAVDWRQFWENLRAGRDCIVEIPPERWDWRAYHDSARGTPGRSYTRWGGFLDGIDRFDPRFFRIAPSEAEHLDPQERLFLESAYLLIEDAGYTPASLSASRRVAVFVGAMNSSYSLLASQWTLANRVSHVFDFHGPSLVVNSACSSSLSAIHLAIESLATGTSEVAIAGGVNLIMHPAHYARLASVGMLSAGSHCRAFGAGADGFVDGEGVGSVLLKPLQRAIEDGDLIYGVIKGSALNAGGRTHGYTVPSPVAQGRLVAEAIERAGFAPHSIGCVEAHGTGTELGDPIEVRGLAEAFGAPVGAAPWCALGSVKSNIGHGEGVAGIAGLTKLLLQMRHGQLAPSLHADTLNPRIDFNGTPFSVQRKLAPWPRPAGHPRRAGVSSFGAGGANAHLLVEEYVAPIVPAPTDADSPALIVLSAANLDRLRAVAQRLLDFLNGEFSSGITLAELAYTLQVGREALAERLGFVADSLGQVRACLAAFLEDREAGRPLLRSSVGQGRAVGSGMLDDESFAQTLRGWIKRGKHELLLKLWGQGEPLDWSLLYRGARPRRVSLPGYPFAGERYWAPAAVRYAGVVCSRRRPAIDPDLLLCQPTWRAASLPAATGRALPHRELWLLGSQARLDDAALPALPIERFRSEQAEPVARCVDLYGQFHARLRARLRDKLSEPLLLQVAILGRDDELLLSGLSSMLRSLGQESRKLSGQLLVMEGGEDRATWQARLDENAVRAHEDWVRYRQGRRETWALQELPPATVEPALPWRARGVYLLSGGAGGLGLLFAEEITRRAEGATVILASRSAPVETRRARLAALAEQGLAIRHAVLDITDAAAVQALVDEIVASYGRLDGVLHLAGVLRDAYLVDQERDRVDQVLAPKLLGALHLDLATRMLPLDCFVLFSSAAALFGNAGQADYASANGFLDAFAVYRQTQGRSGRSLSVNWPLWAEGGMSMDKATEQLLTAGTGIRPMRAATGCRALAHALAGAFPQVLALEGEPVHMRAALLGQSSPVAVATAGDATSPKTSLSCQVRELVAALLKVEPEQIEAGQDIGDYGLDSIGFTHLANQLNLRFGSALRSTDFMELEMASVERIARLLEQKLPALSTGTTPVTRRDRGPSAVPVTPTPRDAGPAAHSDEPLRAQVREAVAALLKVEIEEVDLDLDISDYGVDSIGFTHLANRLNEQQGTRLRATDLLELEQVSVIRIARLLREDPGSRTLLDAVGADASLAVVEGR",
         ],
         "DTee9G4M8sEfnM4HaPfI37rT74pq7M_G": [
-            "DTee9G4M8sEfnM4HaPfI37rT74pq7M_G",
-            "DTee9G4M8sEfnM4HaPfI37rT74pq7M_G",
+            "AXA20094.1",
+            "AXA20094.1",
             set(),
+            "MSVYMFPGQGSQAIGMGTDLFVSFPELTEAADRILGYSIRELCLEDPKHQLGQTRYTQPALYVVNALSYRRRLHEYGAPAYVLGHSLGEYNALEAAGVIGFEDGLRLVRKRGELMSEAPPGAMAAVIGPDEVAISALLARHGLDAIDIANLNSPSQTIISGLKEDIARAAPLFDAEQAHFVPLNTSGAFHSRYMTVARQAFVAYLGEFHFNRPRIPVISNVEAQPYVLERTAELLAAQITQPVQWTRSVHYLLALGQSEFLELGPGQVLTRLLVEIRKHTPTVAPATAGSLSSTPAYDRERELSELQQRIDDWNGRYPVGTRVQVERYPQQLVTRTPAMSLFGHRAAIYLEGYNGYFDLADVHPLHGASA",
         ],
         "mB22-i4RqtslyO7_HappM4rJ4Z2Qbkfn": [
-            "mB22-i4RqtslyO7_HappM4rJ4Z2Qbkfn",
-            "mB22-i4RqtslyO7_HappM4rJ4Z2Qbkfn",
+            "AXA20095.1",
+            "AXA20095.1",
             set(),
+            "MNAIPKDYAVPSISIERLGSVAFKQDHGLRYPYVAGSMVKGIASTAMVINMGRAGFLGYFGTGALDAVSIERAILEIQAALGDRQPYGMNLLSNASTPQAEMDTVDLFLKHGVRRVEASAYMQITVPLVKYRASGLRRDAQGAVVARNMILAKLSRPEVAALFLSPPPDKLLAELVAGGAISTAEADLARLLPMADDICVEADSGGHTDMGVLSALLPSIVRLRDELVAHHGYARTVRVGGAGGIGTPEAAATAFILGADFILTGSINQCTVEAGTSEAAKDLLQQVNVQDMDYCPSGSLFELGAKTQVLKKGVFFPARANKLYELWKNHSSWEEIDAKTREQIQNKYFMRSFESVYEETRAYFLRAEPGEIEKAEKTPKHKLALVFRWYFVHTMRLAMSGSSQQKVDYQIHCGPAMGAFNQWVKGTELESWRNRRVAEIAHRLLEETVQLLNRSFLAMSS",
         ],
         "iI7aI2dI9vaha9f0rVTi_YFrfMXjY1eh": [
-            "iI7aI2dI9vaha9f0rVTi_YFrfMXjY1eh",
-            "iI7aI2dI9vaha9f0rVTi_YFrfMXjY1eh",
+            "AXA20096.1",
+            "AXA20096.1",
             set(),
+            "MLELTKRLADALVSISLFAACRESGLGALLKDRAGLPTRAAQLTWLAPQCGIDEARLEAALQALRDAGWIEALEDGRLIPRATFERVEPWSEAVAVGLDRDWGALLREQDGRRLRHWLEQGAAARESLAGCQAEAEALDAAAMAPLLFELARLDDAAWLQGRDVTSLAPANAALLRADFLRRGWSLDEAAGLIPNVQGLAMLRDAAALGPLLFLARRPEAGARTLASTVALYRANLRWRNALDQAIAVADSSAHEAWPTGACVMAAAAIGCLPERPSPSRPAVKPGPARFALHQWTARPYRVRHPSLDDLAILRELDLASWPVGMAVPENELRRRIEQFPQGQLLIEQDGEVIASLYAQRIDTLDQLRHTPYARFAWIHRPRGALAHLMGICVAPDWQGHGLADQLIDFCLVYLASFEGIDSVAAVTRCHEYGRFGDKVTLDDYIRQRDEEGRYREPMLQFHASHGAIIHEVVPGFRPEDQANHGTGVLVEYAHYRQAPELAGPVVAVDSVGPGSAALDVAEAVRASILDVLGELHAAAYGPQVPLMEMGFSSFHLQELQRSLGERVGLKLDATFFFQHGTPAGIVEHLRERLAPIGTEQADIRSTVDTETTPSSATTDGIDVPERIAVIGVACRFPGGVGNPEQFWTLLENGVDAIGEREPGVSPTAASTRRGGFISAVDRFDAGFFRISPREAELVDPQHRLLLEVVWEALEQASIAPGRLAGSDTGVFVGVMGHDYERLLRQQGGAPPIDPYFATGNANSIAAGRIAYYYDWHGPTLAVDTACSSSLVATHLACESLLAGECSLALAGGVNLLLHEDMFAAFEQAGMLSPEARCKTFDASADGYVRGEGCAMLVLKRFSEAQRDGDPVWGVIRGSAINQDGASAGLTAPNQGAQQAVIEAALRKGGVVPHALRYLEAHGTGTRLGDPIEVLAACAALSAGRPIGQPLLLGSVKTNIGHLEAAAGMAGLIKVMLSMRHGLIPRHLHLQQPNPHLDWAALPVEVVSEARPWPVGPKLAGVSSFGFSGTNAHVVLEEYPANPANTVPMAARSSALLLLSAKREEVLQTQVRQLHEAIGALDEADLPDVAYTLQVGRDAMEYRLALAVGSLAELRQALARFLAGEAGIRQLWQGRAGQQGYLLGSFVLDEAFTASIATSLAAWFARGELGKLAELWVQGLDVDWRRLYGANPPRRISLPTYPFMKERHWLPQAVAQATAEASGAPLLHPLVHRNTSNLAEQRYSSRLDQQAFYLRDHVVQGRHVLPGVAQLEWARAALALALGDTSASLRLEQVSWVQALTVEQALEVHIGIEADEGGWLTYEIYRGSDDEVELYSLGRARLDAERKVPNLDLATLQARCTRRIDGPACYARFTRMGLGYGPAFQVLTELHVGADLAIGRLQVPVGIELGDYRWSPSLLDGALQASYGLVDETAGLQLPFAVESVEQSHALPESALVVVQRAADDSGVLRKLDISIVEESGRVALRLTGFSTRAVQAAAPADSLLMVPRWQARSAVEAPPEPGYRTHRVVLCEFEALRGGFDAALPAASVVHWQAPGSLAERYARYAGQLLCELQALAADHPADPVLLQLVVPAQGEAAVLQGLVGLLCTAQQEYPWLHSQVIALPADAPVADCLAREAAAPVPRVRYQGMQASTREVMDFVEVPPTETAMPWREDGVYWITGGLGGLGLLFAAHIARQVQTPVLVLSGRREPDTAGQAQLDALRALGANVEYHALDIADAAAVAALARNIIARHGCLNGVIHGAGVLRDGLLHSKTVDELQEVLAPKVTGMMALDHATADLELDWLLLCSSMTTVIGNTGQGDYGAANAYLDAYAVHHEQLVAQGLRRGRAISVSWPLWAEGGMRIDAEGQAYLRRSTGMQSLPSEIGLAALEQLLATPRAHSLLLYGDRTRLLARVQALYRAPEPVVVRSVLALAPAAGPVDSQEALRKTARRYLTRLLSRSLKLPPQRIDVQTPLEQYGINSILVVSLTRDLEASFGRLPATLFFEYQSIAALTEYFLAHHADSLTMLGAAPAATQLMAVTSSAPAREASIDAPALRRRRHRRSLPGSMVAGPPVSTVGAPLDIAIVGLSGRYPQARSVADYWANLLKGIDCVTEIPAERWDWRQHFDARKGQDGKSYSKWGGFIDGMDAFDPMFFGIAPREAQLMDPQERLFLQCAYHAIEDAGYTRAGLAASATEGERRGQVGVFVGVMYEEYQLYASQAQARGQGLSLFGSASSIANRVSYHCNFHGPSLAVDTMCSSSLTAIHLACQSLRQGGCSVAIAGGVNVSVHPNKYLMLSDRQFMASNGRCTSFGEGGDGYVPAEGVGAVVLKRLEKAIADGDHIHGVIKGSALNHGGKTNGYTVPNPVAQGQVISQALAESGVPARAISYVEAHGTGTLLGDPIEIAGLSQAYGASTQDKAYCAIGSAKSNIGHAESAAGMAGLTKVLLQMQHGQLVKSLHSDTLNPHIDFSQTPFVVQRELGPWTRPVLEVDGGGEHEYPRIAGLSSFGAGGANAHLIVSEAPASSRHEAVPRQGPVLVVLSARNENILRCQAEQLLTHVQSHASDLANLAYTLQVGREAMEHRLAIVAASTEQLSARLNAYLQDDTLDEAVYRGEPRRSQEAMAVFGGDEELQEVVAKWIARGKLEKLAELWVQGLLIHWEQLYGQAMPRRISLPTYPFAQERYWIDAGAATMRVAGAQILHPLVHVNSSDLQGQRYTTVLDAGTGLLRGHRLHSRPTLPALAQLEWARAALAHALGGTAGLCLEEMRWLVPLHVDAPTTLHIALDWEDETHVGYEIYREDDEGREVYAEGRAELVDALPAPRLDLPALQAQCTQHLDGDEAYSRLATAGWSCADSFQALSSLQSGEGLAIAHWRQKVDASWQDYALAPNLLDVALQACRLAWPQQDWSWPTAARQLRMVGSLPVQGMVVVRQHPGQLDVDIDFADGEGYVLASLQGLAPQQPSTQASPVAQTLLLAPCWTPQAGPPAACERPSYAAHWVVLCELDAPASLEAELVPAHCLRWQAEGNPAERYGVYAGQALAWLQKIVAGGPSGQVLLQLVLPARGEAALMQGLGGMLRSARLEYPWLLIQVIAVDSAQELAVRLNTEAIAPVPALRDGAAGREVLDFIPLAPPEGVRAMPLAWRDEGVYWITGGLGGLGRLFATAIAAEVRCPVLVLSARRPPDTAQAAFIERLREQGARVEFRAMDTGDAAAVEAVARAIVAEHDGLNGIIHSAGVLRDGLLANKREADLRQVLNAKVGGLFALDMATRDIGLDWFLLCSSVSSVLGNAGQTDYAAANGFMDAYSAYRQELVEQGRRRGRCVSLSWPLWAEGGMHIDAVAQEQMRRATGMQALPRAAGLAALHQALAATVSHVLVLHGEPQRLRDYVSTAYRVPALAEPVAKMSPGRGYRRELKGLDLADCVNWDLVEHTSALLQMPRDAVDTQANLIDYGYDSVSLTAFAARLGEHYGIALTPSLFFSHPTLEQFSVYLLDSHGDALAAFYRAASEVERAEAGPAQLGAPTAATSASIRRRRHAQLAGAVANIVEPIAIIGISGRFPGARSVDELWTILRDGREVLQSAGTERFAAWPPPQRPACDRIGLLPGVAEFDPLFFEISPREAEAMDPRQRLLLQEAWRALEDAGYGVTQLQLHTVGMFVGVEQGDYQLIGKTEADVTSNHDGVLATRLAYALNLHGPAMAINTACSSGLVAAHQACLSLRVGECDTAIAAGVNLLLTPAIVRSMEQAGMLSPEGRCHAFDRRANGMVPGEAVVALVLKRLSRAEADGDPIHAVIVGSGINYDGKTNGITAPSGAAQTRLLQSVYARHHIDPADIDYIVTHGTGTPLGDPVEINALADAFTPHERAPQSCALTSSKTNLGHTQAASGLVSLVGLVQAIRHETIPASLHCEQLSDHIAWQKSPFYVNTAARPWPAPTTRARLGAVSAFGISGTNAHMVLRGHAAPADAGRHAAVRPLLLAVSAKTAEALRQRVQDLIERLQAREHDAAELASISHTLLVGRQHFAHRCAVVVQDREDAVYALQQALSRETRANLFRGVVSREFAAQKALLDYGQELIGRIAGVQQTTKQVQQQAGAQGEASREALSALADMYCQGYALAWHELFGQTPPNRVHLPTYPFARETYWVKPTKHAEAGEAVQLHPLVHRNTSDLDEQRYSSRLVVDAFFLRDHVVRGCSVLPGVAQLEWARAAVALALGGEPSIRLGQVDWLQPLVVEQAAECHIALAPLDDGRLAFEIYGDNGQVHSQGWAEAVSPGQVPRIDLAGLRARCTYRLTGEQCYARFVRMGLNYGPSFQSLAGLRRGEGIAIGELRWPADVDQEAAFVLPPSLLDGALQSCIGLYAESTGLILPFAVETVEQWGAVPATAYAVVQPGADDNEAVRKLDIRIVDEQGQVAVCLSGLSLRSVAPASTAVGTLMLAPRWRVQPALATNMVPANVAHCVIFCEVAPVDLRETLPTASSMHWTAEGSLDERYTRYAEKLCIELQTLEASRSDRLWLQLVVPAQGEHAVLQGLDGLLRTAGQEYPWLVAQTIAVKDTSNLAARLAAEASSPAPRLRYGEAGREILDYAEVFEPRQGVRPWRDRGVYWITGGLGGLGRLFAAHIARQAQVPVLVLSGRREPDAAGQAQLDALRALGAHVEYHALDITDVAVVAALAQNIVGRHGCLNGVIHGAGVLRDGLLRGKTVDALQQVLAPKVAGMMALDQATATIELDWLLLCASAAGVLGNVGQGDYAAANAYLDAYAVYRDELVAQGHRHGRAISVSWPLWAEGGMQVDAAMQAHLQRSTGMQALPSEAGLAALDQALSESGAGQVLVLHGERARLLGHVQAVHTALALEAQEETATLVAQEAGMDFREAAQRFLTRLFSQSLRLPPQRIDAKVPLEQYGINSILVISLTRDLEASFGRLPATLFFEYQSIAALTGYFLEHHGAALHALLGWSKAEAGAVSTLPTPSPSPAPVNAAPSLPARRFSGRLLDRFSRRNALTSGAPPDTPPVPLDIAIVGLSGRYPQARSVADYWANLLQGIDCVTEIPDERWDWRGQYDPAKGKLGKIYSKWGGFIDEVDAFDPLFFNISPREAELIDPQERLFLQCAYHAIEDAGYTRAGLAASATSGERRGQVGVFVGVMYEEYQLYGAQAQAQGQALSLFGSASSIANRVSYHCNFHGPSLAVDTMCSSSLTAIHLACQSLRQAGCAVAIAGGVNVSVHPNKYLLLSDRQFMASNGRCTSFGEGGDGYVPAEGVGAVVLKPLEKALADGDHIHGVIKGSALNHGGKTNGYTVPNPGAQGQVISQALTEAGVPARAISYVEAHGTGTSLGDPIEIAGLSQAYGASTQDKAYCAIGSAKSNIGHAESAAGMAGLTKVLLQMQHGQLVKSLHSDTLNPHIDFSQTPFVVQRELGPWTRPVLKFDGGGEREYPRIAGLSSFGAGGANAHLIVSEAPASSQHEAVPRKGPVLVVLSARNENILRHQAEQLLAHVQSYAPNLENLAYTLQVGREAMEHRLAIVAASIEQLSARLNACLQEDTLAEAVYRGEPRRSQEAMAVFGDDEELQEAVAKWITRGKLEKLAELWVQGLSIHWDRLYGQALPRRISLPTYPFARDRYWVPKNLPSIDAASTQAAVLHPLVHRNTSHLGGLRFSTRLDPQSWLLREHQVQDHGLLPGAAQLEWARAALSLALEGAKVRLRQVTWLRPLLAEGEAELHIVLRVEDDGRISFRIYREQDGDTLVYSHGWAEALGEQTPAPTLDLAGLLEGCTRHWSREEGYARLEAMGLHYGKNFQVLMSWQIGDAAVVAELRAPDVERLAGYGLPPNLLDGALQASLGLAGEQVGLSLPFAVELVEQWGPVPSPAYVVVHRAVGDSAVVPKLDIDIVDAQGQVAVRLGQFSRRSVEALADAESSALVAAADAVREWTLAPAWDIADLDAHQNANQDGFQKQGTLVLGEADWIGSSGLRNLDWEPEASRECLAERLGEQGELQQLIWAVPSAEPHAALMGLRLVQALLALDYGTRSLQLVVVTRQAQAVWPQETADPRQASVHGLVGSLAKEYPHWRISLIDLPAQITQDGHQWLAQAAQAADSRGDARAWRDCRWYRQQLVPCRLPAVQASAYRQGGVYVILGGAGGVGVAFSEYLVRHYQAQVVWLGRRAEDAVIAEQRARLGGFGPAPWYLRADATDRSALERAYARIRQRHGTIHGLVHAAIVLADRSLAGMPEAVFAAALDAKAATTENFDAVFGTEPLDFQLFFSSLQSYTKSAGQSNYAAGCCHADAYAHGLRQRRPYPVKLMNWGYWGSIGIVSAEGYRERMAQAGVASIEPPEAMIALERLVAAPLHQVAFVKTTTAQMPPLLAFDPQARIELAKASPALSLPAPVALPKPDAAYAEQAAMEARLARLLWAKLTAWGWHGAQAPGLVPAYALWHQASLRLLGEQAQPVVTAADEAILSAQWQAYVHALRDDKALGAHVRLADVALQALPAILRGERAATEVLFPQASLNLVEGVYRNNPVADYFNAVLGERLQAHVQARLAQDPRARLRILEIGAGTGGTSEGLFRCLAPHSERIAEYAYTDLSAAFLRHAEQQYASLAPYLHTQRLDIERSPLAQGFEAGSYDLVVATNVLHATRDIRRTLRHAKSLLRAEGRLLLNEIEGTSLFAHLTFGLLDGWWLARDPALRIPGTPALSWNSWREVLMGEGFRPVLAPAFEAHRFGQQIVEAGSDGVIRVQAEVANAPVVASEVAVAAPSASRPATMPTRRSHAAVNAAPVAAVATATGGARGRQARVRQAIRESVLEALKMNAAQLQDDQAFMTYGVDSITGVALVNTINTRLGLRLPTTTLFDYSTIEQLSTHISMQYAVQLSDAELEPVAAVVSAPVMTEMAASPLSESALDTVPMPSLAAEVFRAAAPVPVWRPSPAEPVQVQPRLLPIVAPGPSGSGPTYHRVWLDRPGSIDEVRIVADSLSPLQPHEVRIAVHAFSLNFGDLLCIKGMYPTQPAYPFTPGFEASGEVVAIGVGVSSVAVGDAVMAIAGAELGAHATVLTCMEQQVYAMPRGLSFEAACAMPVVAVTMIECFTKARLKAGESILIQTATGGTGLVAVQLAQHAGARIYATAGSAAKLNYLAGLGIEHRINYLEQDFEAELMRLTGGRGVDVVINTLGGDAVQKGLNCLAPEGRYIEIAMTALKSAHAIDLSGLANNQTLHSIDLRKLGRTNPAALERGVREMTRLLEAGVISPVLSRIFDFEQVQDAYRWLEDRRNIGKVVVSVPLTYRYQAPDSGERIAIEPIAVIGMSGRFARAGDLQELWQALAGGEDLIEEASRWPLDALGPDQEPYCHHGGFLRDIDAFDPMFFNISGHEAAVMDPQQRIFLEEAWRALEDAGYAGASVEGRRCGVYVGCAAGDYQRLLERDAPAQAFWGNAGSLIPARIAYHLDLQGPAVAIDTACSSSLVALHQACQALRHGEAELALAGGVFVQSTEHFYLQANRAGMLSPRGRCHTFDARADGFVPGEGAGVVVLKRLSQALADGDLIHGVIKGSGINQDGATNGITAPSARSQTRLEREVYQRHGIDPQQIQVVEAHGTGTVLGDPIEYRALTEALLDGKPTGELGTRCAIGSIKSNLGHTAAAAGIAGVIKLLLALRHRRIPPSLHFEQGNTHIDFSRSPLYVPTTLEDWPASVGGQRLAAVSSFGFSGTNAHAVIGEAPATNRVLPRRPTYLVVLSARTQPQLRLQLERILAHLDGEVPPLASLSHTLLLGRRHFDCRWACLASDLKGLRAQLAEALQKETVGGRIGGADHVPPGEEQLDPLQRRMSDYTDMISHEAARDLLEALREAYLQGLPLDWSFLFQGDGWQRVGLPGYPFARERYWVPVRKTVANTEAALASEPLGQAGMSQGDAGETRTLTWVPQWRSRALVSDAQTAAADRHVVLCELDADPALVEGAVTVRQWTHEGSLDQRYAHYAEYLLTEIQTLAKHRSRRSVLLQLVVPARSEGAVLQALGGLLRTAEKEYSWLRTQLIAVDDVAHLSERLNEEATADPTSRVRYLGSSREVLSYVPAVPACGSAPVWREGGVYWITGGLGGLGLVFAEGIARQVRCPTLVLSGRRAPAPTQQARLERLGELGATVECHALDVSEAVAVAALAQSIVARHGRLSGVIHAAGVLRDGLLHNKRREDLQAVLAPKVAGLLTLERATAGLSLDWLLLCSSVAGVLGNLGQGDYAAANAFLDAYALYRQAPYDRVTRRTRLYSISWPLWEEGGMRIDTDTQAALWREAGVKAMPSEAGLQALNCVLTQDFAHALVMHGDARRLSQVVEGAMPEAVDEEKAATLQSNPADLKAKLEAELAGMIASHLQLPIEALSRDARISEFGFDSISLKAFLKLLNRRHGLALSPAVFFEEPSIRALAAYLLREHGEAFVAIESSAQATLEAPPEPPPVAATSSSTEREQQGGAKPTQREAIAVIGLDGYFPASTDLQEYWDNLWTGRDCITEVPARRWSLDEFYTEDVEVAIRQGRSYSKWGGFIRDIEALDPGFLSGVPAKARQQLNEEQKLFVGIVDRLLVTSGYTEQRLEALRCRRVGVYLGMTAERSAPTDATTSGRNDSPGTLAGMVSRMFRFNGPSVAVDAHSASSMTAVHMACNNLLHSECDAAIAGGVSLLYPDTYRDGCQISLLASHPESRSFSEDKDGVLLADGVGAVLLKRLSTAVEDGDRILAVIRSTVAQSVSSGLSDLPKPELVAASIRENFARATVDPRTISYVEAASAGFPIGDVIEMSATALAFRAYTDQRQFCALGSVKANIGHATAASGISQLAKVVLQLQNGRLAPSIKVGPEQVQAQLRKSPFYVQQQAEDWQRPRLSIDGNEEGREYPRRAMINSMGHGGFYAGAILEEYCGPVLEDQ",
         ],
         "9stFB1fGjCdZVZWHLVI3OD4A_DV3WcV6": [
-            "9stFB1fGjCdZVZWHLVI3OD4A_DV3WcV6",
-            "9stFB1fGjCdZVZWHLVI3OD4A_DV3WcV6",
+            "AXA20097.1",
+            "AXA20097.1",
             set(),
+            "MSAEANKAIVTAMYEALNNRDAKGHFGHMADDVQVTYFGNHRFSRTFHGKQDLFENFTKHFMEYLEGPLDFRVGNIIATDDYAVIEGQGIGRTKDGQDYNNVYCIVMRLVEGKVTEIREYMDTDLAKRIFG",
         ],
         "MSHRSCZfdBJP8vdJdaXfeZrThH_4EUMm": [
-            "MSHRSCZfdBJP8vdJdaXfeZrThH_4EUMm",
-            "MSHRSCZfdBJP8vdJdaXfeZrThH_4EUMm",
+            "AXA20098.1",
+            "AXA20098.1",
             set(),
+            "MKDLTQGAVTRHIVSMAVPIGVGAVFQSLYYLIDLYFVGCLGSDALAGVSAAGNLSLLVMALTQVLGAGTLALMAQAAGRKNEDQARGIFNQALVLSICSGLVLLLLGYALTGVYLRSTSATLVVAEQGQRYLYWFLPGMAFQFVLTAMASALRGIGVVKPTMMVQLMTVVLNIVLAPVLIVGWGTGYAMGVAGAGLASSIALAVAAPAMAWHFHQLGHYVQVRRELLRPRWADWRRLLTIGLPAGGEYTLLFLYSAATYWAIRDFGPAAQAGFGAAARLMQVLLLPALALSFATGPMVGQNLGAGMAERVRRTFGAAIWLISSIMLLACLLLLWEGETLLGRFATGGEVIEQGTHYLHIACWSFIAQGVIFTCSSVFQGLGNTRPALVSSVVRLLCFVLPVAWLSARGHFPIIAVWYLSLASIFLQALLSLWLVRQEFRLKLAPVAGLPSMQAIRR",
         ],
         "Qi23auOUTcBzWTmDHuGinrzIuqH7-zVn": [
-            "Qi23auOUTcBzWTmDHuGinrzIuqH7-zVn",
-            "Qi23auOUTcBzWTmDHuGinrzIuqH7-zVn",
+            "AXA20099.1",
+            "AXA20099.1",
             set(),
+            "MSSGYQPDAVQARGNPARGGTVFMFGGQGTQYFQMGRELYRSHPVFRERMDGCDALIRAELGYSLTEVLYEAGHTSSTPFDEILYTHPALFSIGHSLGEAIRADGIEPKAVLGYSLGEYIGLVAAGCLGWEGGLRLVIRQAQVLAQHGAAGGMLSVFAELEQFWQRPDLYTGSQLAVVNFSGSFCVAGAPEAMEAIKRRLDEEQRISTLLPIRFAFHSSGIDALEQRIRGLTADLRIKPGRVPAYSCMLRRAIGTAEFADPTAYCWRVVRDSVHFEQTARRLAAEIPVPFMVDLSATGTLATFIKYARIDGVSYSHCINQFGRDLNEYKSLMQRFAV",
         ],
         "nk3UJUyLaWr8LochtohJ9L6eugdChZL9": [
-            "nk3UJUyLaWr8LochtohJ9L6eugdChZL9",
-            "nk3UJUyLaWr8LochtohJ9L6eugdChZL9",
+            "AXA20100.1",
+            "AXA20100.1",
             set(),
+            "MSSVATVPTTPSYTMRPLLHAVLFLRFRHARVPLIGQRIRLVRRGVMARLMQLPVTVVENRSKTVATTGGSLAENVVYRRFKTLTGNCFWGASHRLAGAQGHRSRRRNQPHGGPRSSIIRSYRLKLCP",
         ],
         "du1Ncfm5UYiFYgDWD8KW1AQJNHlAcVXL": [
-            "du1Ncfm5UYiFYgDWD8KW1AQJNHlAcVXL",
-            "du1Ncfm5UYiFYgDWD8KW1AQJNHlAcVXL",
+            "AXA20101.1",
+            "AXA20101.1",
             set(),
+            "MSAIPVHASPFLFELLTNALPDVYQSYTELRRLGGVVRDSSGVILLARHDDIVKTFADRRFTSVGRQSLASMSPALQEKMKGSRLFELLNFRDGDSHRQARRVLAGLFNPDTMEWIRVEIAAEAGVLMERWQTGEADDFVAAVTAQLPMRALAMLIGIEEVGLQDFFLRTRNFGAWLSASVFSEEGLSLVADEFVWARGWLRAQLVGKPLFDAVSDDTRENLLGDLLLVLVTGYDSSVALLGNGLATLVSVPALRDRLARDAGLSLRAAEELIRYDSPAQVAFRLALEDVTLGEHRIAKGEFVALVNGSGNRDETIYEHADQLNFDRPKQRALAFGSGPHACAGAALAKAQLTGFLDGVRPWLPHLTLDDATAPPSQHGLLRYRTHLMLRHTVV",
         ],
         "5IYMhENey2WCMrKPUz3AqBIZuFSv6DPP": [
-            "5IYMhENey2WCMrKPUz3AqBIZuFSv6DPP",
-            "5IYMhENey2WCMrKPUz3AqBIZuFSv6DPP",
+            "AXA20102.1",
+            "AXA20102.1",
             set(),
+            "MAYRSTIYLDWGTFFLIETPAASIQPLLPASVRPLLAASGAAILTLNVVHFLAGGEQVDLPANHEIDIGVLVELDNSEFEADLPQASVAIHVLKVASTARGYVDLCQNTGYRVIDPVALAFEINPATLTASVCDADGPILGCRQLDLDLEYDEFRRIGQDVMYDAERGIHRANYIFSGKGLSRPMTNAMELRVHAHPFFADLGIEPGVLVCLDQFALKPSSRSSLAFYRPNQVEMDETVQAEKD",
         ],
         "iiWqYfcbDGjauCrUsdiI1pAlG5Syx_-L": [
-            "iiWqYfcbDGjauCrUsdiI1pAlG5Syx_-L",
-            "iiWqYfcbDGjauCrUsdiI1pAlG5Syx_-L",
+            "AXA20103.1",
+            "AXA20103.1",
             set(),
+            "MSTRMFITGGACGLGRALAQRYARDGASVCIGDVDDAAGRQVVEALLAEGATAHYLHCDVTREPQLHEAANWLRTQWGGVDIVINNAGVAQIGGITESSLEDWQWAVDINLLGVVRGCKAFIPLLQAQGGGKLLNVASIAGLLYMPKSGGYNATKAAVIALSETLQLELHDSGIQVSVACPAYFRTDLARNMRASNAQLRQRTHNLVEQARLGSQEVAELIHAGLARGDTHILTHPATRIAWRLKRWLPYRWYLGIARKQIAKAGTAAEDAPA",
         ],
         "WbViYzQw8y-XfCQMgQXkedGduNMJPa14": [
-            "WbViYzQw8y-XfCQMgQXkedGduNMJPa14",
-            "WbViYzQw8y-XfCQMgQXkedGduNMJPa14",
+            "AXA20104.1",
+            "AXA20104.1",
             set(),
+            "MSFTLQGIPVSRGISIGRAYLIAPAALDVAHYLVEAQQLEAEIERLRAALLAVRGELDVLRSDLTEDTPSEVAAFIDVHSMILNDALLVQETIDLIRVRRYNAEWALTKQLDVISGHFDDIEDEYLRERKADIEQVVERVLKALAGEPSASQALGGATGGKDEMIVVAHDIAPTDMIQFKNQAFHAFVTNLGGHTSHTAIVARSLGIPALVGVQHASALIRQNDLIIVDGERGIVIVDPAPIVLEEYSYRQSEMALEQHKLQRLKFSPTQTLCGTQIDLMANIELPDDTKTAVEAGAVGVGLFRTEFLFMNDANALAEEEEQFRAYRRTVEMMNGKSVTIRTIDVGADKPREEGYETAPNPALGLRAIRWSLSAPQMFLTQVRAILRASSVGPVKILVPMLAHAQEIDQTLNLIREAKRQLDDAGLAYDPNVRVGAMIEIPAAAIALPLFLKRVDFLSIGTNDLIQYTLAIDRADNTVAHLYDPLHPAVLHLISGTLRAAKRAGVPVSVCGEMAGDPAMTRLLLGMGLTEFSMHPSQLLVVKQEILRAHLKAIEKSTADVLASYEPEDVQLALKQLAAAKPKADLAA",
         ],
         "4_8182J88axMDpFJBZI6kLNJAu8Ittm3": [
-            "4_8182J88axMDpFJBZI6kLNJAu8Ittm3",
-            "4_8182J88axMDpFJBZI6kLNJAu8Ittm3",
+            "AXA20105.1",
+            "AXA20105.1",
             set(),
+            "MIVPMKNSDLSLPSKLDAAILRGRDALAQRQNADGSWRFELESDATITAEYILMMHFIGKIDDVRQARMARYLREIQRLAAHGGWDLYVDGAPDVSASVKAYFALKAAGDSEDAPHMARARETILHLGGAARCNVFTRILLVTFGQVPWRATPFMPIEFVLFPKWVPISIYKVAYWARTTMVPLLVLCSLKARAKNPRGISIRELFVTAPEEERNYFARGGFIRNLFLYIDRTLCSLDALIPKALRRRAIRHAESWCAERMNGEDGMGGIFPPIVYSYQMMEVLGYAEDHPLRRACEDALEKLLVERPDGSMYCQPCLSPVWDTAWATMALEQARAVPDTREQPTVSAAQLQVGITRACDWLAGKQVTELKGDWIENAPTETPAGGWAFQYENPYYPDVDDSAVVAAMLHQRGCAMARLTGTDPYTEVVSRGLDWIRGLQSRNGGFGAFDADCDRLYLNLIPFADHGALLDPPTEDVSGRVLLCFGVTGRAEDRSALARAIEYVKRTQREDGSWWGRWGTNYIYGTWSVLAGLALAGEHCSQPYIARAIDWLCARQNADGGWGETNDSYVDPSLAGTNGGESASNFTAWALLAQMAFGEWQSESVQRGIRYLLSVQQADGFWWHRSHNAPGFPRIYYLKYHGYTAYFPLWALARYRCLSQAHVATSASPAAEARRGVVL",
         ],
         "IRqRpDzrGB9UhHJD6AzDq_6Xupj00Nte": [
-            "IRqRpDzrGB9UhHJD6AzDq_6Xupj00Nte",
-            "IRqRpDzrGB9UhHJD6AzDq_6Xupj00Nte",
+            "AXA20106.1",
+            "AXA20106.1",
             set(),
+            "MNFDDYCQKKAAPPGSSIYYALRQAPLTSQGALIALFALRRELEEATRETSEPAIGQTKLAWWRKELAALAEGQPSHPVSQALALHASAIASDHAVLQALADGFAMDLEQTRYLDWPNLRRYVERVGGGFAGLVARATTGPAIPADIAPAWAASLGEGLQLAQIVEDVGDDLRHGRVYLPFDELQRYEVTSVDLMHRRYSPAFRKLMRFQVTRARETLHAALEAIPAAELPAQRSLRALAALALATLDEIEGEDYQVLHQRILLTPIRKLWVAWRAAQRRY",
         ],
         "ewjVum5PbpEJA4rl-BfnCAypKl5HXb7x": [
-            "ewjVum5PbpEJA4rl-BfnCAypKl5HXb7x",
-            "ewjVum5PbpEJA4rl-BfnCAypKl5HXb7x",
+            "AXA20107.1",
+            "AXA20107.1",
             set(),
+            "MASMGIISGNTNGLRVSEVRHTVDDADANGDLGRLRGDVTRPETVAGEGLEPIHRILGKRSPVVATFLLPFSTTVTGNCINRAIMPRRTGHIRWPMNDTLAWRNRRNSTACSNGRMAWLGVVGTITANDIDLFFAWNLVEQLGQSITVSHILIRH",
         ],
     }
     assert {k: v.sequence for k, v in sg_object.proteins.items()} == PROTEIN_DICT
diff --git a/tests/python/classes/test_mibig_gbk_parser.py b/tests/python/classes/test_mibig_gbk_parser.py
index 15cac39b..5c1b7c9e 100644
--- a/tests/python/classes/test_mibig_gbk_parser.py
+++ b/tests/python/classes/test_mibig_gbk_parser.py
@@ -77,8 +77,8 @@ def test_loci_parent():
     sg_object = SocialGene()
     gbk_path = os.path.join(FIXTURE_DIR, "lagriamide_mibig_bgc0001946.gbk")
     sg_object.parse(gbk_path)
-    assert isinstance(sg_object.assemblies["lagriamide_mibig_bgc0001946"].loci["BGC0001946.1"].parent_object, molbio.Assembly)
-    assert sg_object.assemblies["lagriamide_mibig_bgc0001946"].loci["BGC0001946.1"].parent_object.uid == "lagriamide_mibig_bgc0001946"
+    assert isinstance(sg_object.assemblies["lagriamide_mibig_bgc0001946"].loci["BGC0001946.1"].parent, molbio.Assembly)
+    assert sg_object.assemblies["lagriamide_mibig_bgc0001946"].loci["BGC0001946.1"].parent.uid == "lagriamide_mibig_bgc0001946"
 
 
 def test_loci_features_sorted_by_midpoint():
@@ -117,8 +117,11 @@ def test_parse_features():
     )
     # fmt: off
     temp = {f"{i.uid}_{i.start}": i.all_attributes() for i in sg_object.assemblies['lagriamide_mibig_bgc0001946'].loci['BGC0001946.1'].features}
-    assert str(type(temp['5IYMhENey2WCMrKPUz3AqBIZuFSv6DPP_92083']['parent_object'])) == "<class 'socialgene.base.molbio.Locus'>"
+    assert str(type(temp['5IYMhENey2WCMrKPUz3AqBIZuFSv6DPP_92083']['parent'])) == "<class 'socialgene.base.molbio.Locus'>"
     for k in temp.keys():
-        del temp[k]['parent_object']
+        assert isinstance(temp[k]['parent'], molbio.Locus)
+        del temp[k]['parent']
+        assert isinstance(temp[k]['protein'], molbio.Protein)
+        del temp[k]['protein']
 
     assert temp == {'-l7xLyFZbiZENPLq_GML8JyTRF1Srawr_2205': {'description': 'transposase', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': '-l7xLyFZbiZENPLq_GML8JyTRF1Srawr', 'external_id': 'AXA20088.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'MSHRSCZfdBJP8vdJdaXfeZrThH_4EUMm_87147': {'description': 'MATE family efflux transporter LgaH', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'MSHRSCZfdBJP8vdJdaXfeZrThH_4EUMm', 'external_id': 'AXA20098.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, '5IYMhENey2WCMrKPUz3AqBIZuFSv6DPP_92083': {'description': 'LgaM', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': '5IYMhENey2WCMrKPUz3AqBIZuFSv6DPP', 'external_id': 'AXA20102.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'mB22-i4RqtslyO7_HappM4rJ4Z2Qbkfn_58398': {'description': 'enoylreductase LgaF', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'mB22-i4RqtslyO7_HappM4rJ4Z2Qbkfn', 'external_id': 'AXA20095.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'Tdc2m3PRLsyEzjwyux6BF4arDy2mQ_Bl_1190': {'description': 'sigma-70 RpoE', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'Tdc2m3PRLsyEzjwyux6BF4arDy2mQ_Bl', 'external_id': 'AXA20086.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'ptq1NGhBcUp3TIEqvAUxnnp4LOKwINvn_1915': {'description': 'competence protein ComEC', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'ptq1NGhBcUp3TIEqvAUxnnp4LOKwINvn', 'external_id': 'AXA20087.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'IRqRpDzrGB9UhHJD6AzDq_6Xupj00Nte_98026': {'description': 'all-trans-phytoene synthase', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'IRqRpDzrGB9UhHJD6AzDq_6Xupj00Nte', 'external_id': 'AXA20106.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'WbViYzQw8y-XfCQMgQXkedGduNMJPa14_93904': {'description': 'phosphoenolpyruvate-protein phosphotransferase', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'WbViYzQw8y-XfCQMgQXkedGduNMJPa14', 'external_id': 'AXA20104.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, '9stFB1fGjCdZVZWHLVI3OD4A_DV3WcV6_86717': {'description': 'nuclear transport factor 2 (NTF2)-like protein LgaL', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': '9stFB1fGjCdZVZWHLVI3OD4A_DV3WcV6', 'external_id': 'AXA20097.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'Qi23auOUTcBzWTmDHuGinrzIuqH7-zVn_88580': {'description': 'acylhydrolase LgaI', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'Qi23auOUTcBzWTmDHuGinrzIuqH7-zVn', 'external_id': 'AXA20099.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'IsCrCflKZgA6ghoHxXclbsOix0bbDkwZ_13790': {'description': 'hybrid trans-AT PKS/NRPS LgaB', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'IsCrCflKZgA6ghoHxXclbsOix0bbDkwZ', 'external_id': 'AXA20091.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'T_DzOorDp3ROhRRBtuXP3xyAPorpTVD0_2828': {'description': 'hypothetical protein', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'T_DzOorDp3ROhRRBtuXP3xyAPorpTVD0', 'external_id': 'AXA20089.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'iiWqYfcbDGjauCrUsdiI1pAlG5Syx_-L_92859': {'description': 'ketoreductase LgaK', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'iiWqYfcbDGjauCrUsdiI1pAlG5Syx_-L', 'external_id': 'AXA20103.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'AStsOnOU5ZWxURs9PrTiWjddkuQXfanl_3132': {'description': 'hybrid trans-AT PKS/NRPS LgaA', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'AStsOnOU5ZWxURs9PrTiWjddkuQXfanl', 'external_id': 'AXA20090.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'DTee9G4M8sEfnM4HaPfI37rT74pq7M_G_57289': {'description': 'acyltransferase LgaE', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'DTee9G4M8sEfnM4HaPfI37rT74pq7M_G', 'external_id': 'AXA20094.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'du1Ncfm5UYiFYgDWD8KW1AQJNHlAcVXL_90836': {'description': 'cytochrome P450 LgaJ', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'du1Ncfm5UYiFYgDWD8KW1AQJNHlAcVXL', 'external_id': 'AXA20101.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'nk3UJUyLaWr8LochtohJ9L6eugdChZL9_90318': {'description': 'transposase', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'nk3UJUyLaWr8LochtohJ9L6eugdChZL9', 'external_id': 'AXA20100.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'iI7aI2dI9vaha9f0rVTi_YFrfMXjY1eh_59909': {'description': 'trans-AT PKS LgaG', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'iI7aI2dI9vaha9f0rVTi_YFrfMXjY1eh', 'external_id': 'AXA20096.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5_33004': {'description': 'trans-AT PKS LgaC', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5', 'external_id': 'AXA20092.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, '4_8182J88axMDpFJBZI6kLNJAu8Ittm3_95865': {'description': 'squalene--hopene cyclase', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': '4_8182J88axMDpFJBZI6kLNJAu8Ittm3', 'external_id': 'AXA20105.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'RyDIaUZc_b21_kQalx7J3yNO4l5f-439_53400': {'description': 'trans-AT PKS LgaD', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'RyDIaUZc_b21_kQalx7J3yNO4l5f-439', 'external_id': 'AXA20093.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}, 'ewjVum5PbpEJA4rl-BfnCAypKl5HXb7x_98927': {'description': 'hypothetical protein', 'frameshifted': None, 'goterms': None, 'incomplete': None, 'internal_stop': None, 'locus_tag': None, 'missing_C_terminus': None, 'missing_N_terminus': None, 'missing_start': None, 'missing_stop': None, 'note': None, 'partial_in_the_middle_of_a_contig': None, 'partial_on_complete_genome': None, 'uid': 'ewjVum5PbpEJA4rl-BfnCAypKl5HXb7x', 'external_id': 'AXA20107.1', 'too_short_partial_abutting_assembly_gap': None, 'type': 'CDS'}}
diff --git a/tests/python/classes/test_socialgene.py b/tests/python/classes/test_socialgene.py
index 4d7fb32d..70d72fd3 100644
--- a/tests/python/classes/test_socialgene.py
+++ b/tests/python/classes/test_socialgene.py
@@ -13,7 +13,7 @@
 )
 
 
-temp.add_assembly("myassembly")
+temp.add_assembly(uid="myassembly", parent=temp)
 temp.assemblies["myassembly"].add_locus(
     external_id="my_locus",
 )
diff --git a/tests/python/cli/test_export_protein_loci_assembly_tables.py b/tests/python/cli/test_export_protein_loci_assembly_tables.py
index 47a70abd..48764c30 100644
--- a/tests/python/cli/test_export_protein_loci_assembly_tables.py
+++ b/tests/python/cli/test_export_protein_loci_assembly_tables.py
@@ -35,9 +35,8 @@
     "loci",
     "locus_to_protein",
     "protein_ids",
-    # "protein_info",
 ]
-hash_algo = ["crc64", "sha512t24u"]  # , "sha256"]
+hash_algo = ["crc64", "sha512t24u"]
 include_sequences = ["True", "False"]
 
 
@@ -72,7 +71,7 @@ def test_gbk_parsing_and_flatfile_for_neo4j_creation_collect_tables_in_memory_fa
 # DO NOT REMOVE, used to create truth files
 def create_files(
     outdir="/tmp/tempsg",
-    tg="/home/chase/Documents/github/kwan_lab/socialgene/sgpy/tests/python/data/test_genomes",
+    tg="./tests/python/data/test_genomes",
 ):
     from pathlib import Path
 
diff --git a/tests/python/compare_proteins/compare_proteins.py b/tests/python/compare_proteins/compare_proteins.py
new file mode 100644
index 00000000..5a6d0097
--- /dev/null
+++ b/tests/python/compare_proteins/compare_proteins.py
@@ -0,0 +1,48 @@
+import os
+from pathlib import Path
+
+import pandas as pd
+
+from socialgene.base.socialgene import SocialGene
+from socialgene.compare_proteins.base import BlastTab_COLUMNS
+from socialgene.compare_proteins.diamond import DiamondBlastp
+from socialgene.compare_proteins.hmmer import CompareDomains
+from socialgene.compare_proteins.mmseqs import MMseqsEasySearch
+
+FIXTURE_DIR = os.path.dirname(os.path.realpath(__file__))
+FIXTURE_DIR = os.path.dirname(FIXTURE_DIR)
+FIXTURE_DIR = os.path.join(FIXTURE_DIR, "data", "compare_proteins")
+
+sg_1848 = os.path.join(FIXTURE_DIR, "BGC0001848.pickle")
+sg_1850 = os.path.join(FIXTURE_DIR, "BGC0001850.pickle")
+
+
+def test_DiamondBlastp_compare_proteins_dataframe():
+    a1 = SocialGene().eat_pickle(sg_1848)
+    a2 = SocialGene().eat_pickle(sg_1850)
+    z1 = DiamondBlastp()
+    z1 = z1.compare_proteins(a1.protein_list, a2.protein_list)
+    z2 = pd.read_csv(
+        Path(FIXTURE_DIR, "test_DiamondBlastp.csv"), dtype=BlastTab_COLUMNS
+    )
+    pd.testing.assert_frame_equal(z1, z2, check_names=False)
+
+
+def test_MMseqsEasySearch_compare_proteins_dataframe():
+    a1 = SocialGene().eat_pickle(sg_1848)
+    a2 = SocialGene().eat_pickle(sg_1850)
+    z1 = MMseqsEasySearch()
+    z1 = z1.compare_proteins(a1.protein_list, a2.protein_list)
+    z2 = pd.read_csv(
+        Path(FIXTURE_DIR, "test_MMseqsEasySearch.csv"), dtype=BlastTab_COLUMNS
+    )
+    pd.testing.assert_frame_equal(z1, z2, check_names=False)
+
+
+def test_CompareDomains_compare_proteins_dataframe():
+    a1 = SocialGene().eat_pickle(sg_1848)
+    a2 = SocialGene().eat_pickle(sg_1850)
+    z1 = CompareDomains()
+    z1 = z1.compare_proteins(a1.protein_list, a2.protein_list)
+    z2 = pd.read_csv(Path(FIXTURE_DIR, "test_CompareDomains.csv"))
+    pd.testing.assert_frame_equal(z1, z2, check_names=False)
diff --git a/tests/python/compare_proteins/hmm/hmmer.py b/tests/python/compare_proteins/hmm/hmmer.py
index 3d8bedb0..e482450a 100644
--- a/tests/python/compare_proteins/hmm/hmmer.py
+++ b/tests/python/compare_proteins/hmm/hmmer.py
@@ -3,7 +3,7 @@
 import pandas as pd
 
 from socialgene.base.socialgene import SocialGene
-from socialgene.compare_proteins.hmm.hmmer import CompareDomains
+from socialgene.compare_proteins.hmmer import CompareDomains
 
 FIXTURE_DIR = os.path.dirname(os.path.realpath(__file__))
 FIXTURE_DIR = os.path.dirname(FIXTURE_DIR)
@@ -49,7 +49,7 @@ def test_CompareDomains_compare_one_to_many():
     a = CompareDomains()
     p1 = sg_object.proteins["Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5"]
     p2 = list(sg_object.proteins.values())
-    a.compare_one_to_many(p1, p2)
+    df = a.compare_one_to_many(p1, p2)
     expected = pd.DataFrame(
         {
             "query": {
@@ -71,7 +71,7 @@ def test_CompareDomains_compare_one_to_many():
             "score": {0: 1.5, 1: 1.14, 2: 0.78, 3: 0.6, 4: 0.52, 5: 0.18},
         }
     )
-    pd.testing.assert_frame_equal(a.df, expected)
+    pd.testing.assert_frame_equal(df, expected)
     a.compare_one_to_many(p1, p2, filter=False)
     expected = pd.DataFrame(
         {
@@ -161,7 +161,7 @@ def test_CompareDomains_compare_many_to_many():
     a = CompareDomains()
     p1 = list(sg_object.proteins.values())
     p2 = list(sg_object.proteins.values())
-    a.compare_many_to_many(p1, p2)
+    df = a.compare_many_to_many(p1, p2)
     expected = pd.DataFrame(
         {
             "query": {
@@ -335,14 +335,14 @@ def test_CompareDomains_compare_many_to_many():
         }
     )
     pd.testing.assert_frame_equal(
-        a.df.sort_values(["query", "target", "score"], ignore_index=True),
+        df.sort_values(["query", "target", "score"], ignore_index=True),
         expected.sort_values(["query", "target", "score"], ignore_index=True),
     )
-    a.compare_many_to_many(p1, p2, filter=False)
+    df = a.compare_many_to_many(p1, p2, filter=False)
     # 22 inputs * 22 inputs = 484
-    assert len(a.df) == 484
+    assert len(df) == 484
     pd.testing.assert_frame_equal(
-        pd.DataFrame(a.df["score"].value_counts()).reset_index(),
+        pd.DataFrame(df["score"].value_counts()).reset_index(),
         pd.DataFrame(
             {
                 "score": {
diff --git a/tests/python/compare_proteins/hmm/test_scoring.py b/tests/python/compare_proteins/hmm/test_scoring.py
index 0203dfd7..65db32d5 100644
--- a/tests/python/compare_proteins/hmm/test_scoring.py
+++ b/tests/python/compare_proteins/hmm/test_scoring.py
@@ -3,7 +3,7 @@
 import pytest
 
 from socialgene.base.socialgene import SocialGene
-from socialgene.compare_proteins.hmm.scoring import _mod_score_tupler, mod_score
+from socialgene.compare_proteins.hmm_scoring import _mod_score_tupler, mod_score
 
 FIXTURE_DIR = os.path.dirname(os.path.realpath(__file__))
 FIXTURE_DIR = os.path.dirname(FIXTURE_DIR)
@@ -33,7 +33,7 @@ def test_create_tuple_type():
     a = _mod_score_tupler(*[i for i in range(7)])
     assert (
         str(type(a))
-        == "<class 'socialgene.compare_proteins.hmm.scoring.protein_comparison_modscore'>"
+        == "<class 'socialgene.compare_proteins.hmm_scoring.protein_comparison_modscore'>"
     )
 
 
@@ -74,15 +74,13 @@ def test_mod_score():
     p1 = sg_object.proteins["Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5"]
     p2 = sg_object.proteins["iI7aI2dI9vaha9f0rVTi_YFrfMXjY1eh"]
     res = mod_score(p1, p2)
-    assert res._asdict() == {
-        "query": "Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5",
-        "target": "iI7aI2dI9vaha9f0rVTi_YFrfMXjY1eh",
-        "query_n_domains": 31,
-        "target_n_domains": 40,
-        "levenshtein": 0.72,
-        "jaccard": 1,
-        "mod_score": 1.23,
-    }
+    assert res.jaccard == 1
+    assert res.levenshtein == 0.72
+    assert res.mod_score == 1.23
+    assert res.query_n_domains == 31
+    assert res.target_n_domains == 40
+    assert res.query == p1
+    assert res.target == p2
 
 
 def test_mod_score_no_domains():
@@ -91,15 +89,13 @@ def test_mod_score_no_domains():
     p1 = sg_object.proteins["Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5"]
     p2 = sg_object.proteins["iI7aI2dI9vaha9f0rVTi_YFrfMXjY1eh"]
     res = mod_score(p1, p2)
-    assert res._asdict() == {
-        "query": "Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5",
-        "target": "iI7aI2dI9vaha9f0rVTi_YFrfMXjY1eh",
-        "query_n_domains": 0,
-        "target_n_domains": 0,
-        "levenshtein": 100,
-        "jaccard": 0,
-        "mod_score": 0,
-    }
+    assert res.jaccard == 0
+    assert res.levenshtein == 100
+    assert res.mod_score == 0
+    assert res.query_n_domains == 0
+    assert res.target_n_domains == 0
+    assert res.query == p1
+    assert res.target == p2
 
 
 def test_mod_score_same_hash_with_domains():
@@ -119,15 +115,13 @@ def test_mod_score_same_hash_with_domains():
         cpus=1,
     )
     res = mod_score(p1, p2)
-    assert res._asdict() == {
-        "query": "Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5",
-        "target": "Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5",
-        "query_n_domains": 31,
-        "target_n_domains": 31,
-        "levenshtein": 0,
-        "jaccard": 1,
-        "mod_score": 1.5,
-    }
+    assert res.jaccard == 1
+    assert res.levenshtein == 0
+    assert res.mod_score == 1.5
+    assert res.query_n_domains == 31
+    assert res.target_n_domains == 31
+    assert res.query == p1
+    assert res.target == p2
 
 
 def test_mod_score_same_hash_no_domains():
@@ -136,15 +130,13 @@ def test_mod_score_same_hash_no_domains():
     p1 = sg_object.proteins["Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5"]
     p2 = sg_object.proteins["Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5"]
     res = mod_score(p1, p2)
-    assert res._asdict() == {
-        "query": "Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5",
-        "target": "Ia6RrYNflQpEjxBCKTb5azk9_FTDvB-5",
-        "query_n_domains": 0,
-        "target_n_domains": 0,
-        "levenshtein": 0,
-        "jaccard": 1,
-        "mod_score": 1.5,
-    }
+    assert res.jaccard == 1
+    assert res.levenshtein == 0
+    assert res.mod_score == 1.5
+    assert res.query_n_domains == 0
+    assert res.target_n_domains == 0
+    assert res.query == p1
+    assert res.target == p2
 
 
 def test_mod_score_input_error():
diff --git a/tests/python/data/compare_proteins/BGC0001848.pickle b/tests/python/data/compare_proteins/BGC0001848.pickle
new file mode 100644
index 0000000000000000000000000000000000000000..066378f0f9b62a1a10264386eb1af1c60a738b3a
GIT binary patch
literal 48364
zcmb@v34AR3Ro{uX=V$vFV;f^0i+x#aY+~7J?K0T!mb$8|O0}rEs#L8KW8`kBrS6v0
zEwx%J39(rN+=PIy12~DZm^c9(vp6&45g?ewg9FTr!-T{P<b$)A;IJE*uqNO0|5vwK
z_etWukn87rTivbhQ~&>2e&=`2|J2)_^Uja`@TaIh_de^Wx7n`m?KHd1*Ei}%&DUT4
zeE;6_6ZN9ai}&Ag|Fv(w|5xt6=H5#V`n^H3-QC#i?H|<p?W11z{#$r&{phH<-`Hz6
zk9ga?=P%ji$;rvm!py?`d!KRnq54bqdwY#`@BY0<4gE{!`r||S{1@_}&F)~M*XT4i
z2lrdgy7%lo#CY&SThG7u9KW}De02G%trxXkc<<5eW_@tnM~ZL0{~F%(+=~AB%G+Lc
z?^(y~t^4=xELPmeZVaNW6>|{UD;;af>F=El!h`O~()`v+a{t~7nrDM%zgyqikY9Md
zv9>ZjJ2g4?`qKS-&mNo~H1FSgR@vlz&qK)Lqm4m*=l;FNg7)Up<mBAO)Z)}EAF<Uu
z+U&Ov25pw=-m9D4-ud3dm(@4<d$Zo}x10TmVol$2r{CN<-W;$Ie0-O6z8~Iu?hgO<
z_m6n^S**=~?b_(+<=<-#nj7q0Z(rW{!u|HqQM<ddaWvp<Jn`7&6TJg@L%UmC%h5nR
z@p;3~V><_}=Ei<|YiqB$(c9jrv%TFxdxzh8$?#Lc4UwbWWzEN)EssC@*ml3Z-#luy
zw+GEF-t|R;UT@>5)$0#7hF?{091jK}WuY+V8#{Fo?)mMmXp~$MKRriZLy*4f-m{wB
zt^2{<ci(&DXwa|o*n7tD*WGWlJ`05ujbYng*81FgcV?{SVWX0lvZ={tX?-CMJDZzl
z%SX%gql0c_FO}}MUOC*q(jxoU`aHdLtuGkgu<3>StykT9#a^$wGqKsKx4U=LMwNTU
zoul(Ei=;NE^+jRpHDT+uVe5;-)?W%+uM1lfVe9o_>kVORGHjK?)>PP<4xad#)=bd&
zNNe^6kq7HXWz*ZNwz}J9bGx&Bw7I{$op-W>lh)o*)AcV!E-g;pDDvc@i2Tz1<Gn$9
zvv+XN?BD5~wYNlx9#YPk3UdB((3)NT@BF!Tb*r77Ewiy<`_o4Y3n#tobfVrXA04ch
z+_Ut=m|Yzgb>>D<OVc9iUphD*)CcX8=AFT5Z$fsx*Tv*n;G;ov|ISgfd(`XS*=={9
z#wC0-<q}HyZI>|N?asE#jl|zRaOV!zjFqF^sFU<7t%^U>wwIi-OPHU(=@J$e=j0MT
zy>))j6K!a3*7xod=KHYA{nk%MR`caIszujK;##zFxb3xSt-b8{q#t*~)3m(d_iS&)
z+Pf5VYO-{bpo>$JBIt|vn<sU&xjtw<%@uuTA1U8|a@&d?o&{xZ*Dg&~w&zykD4dur
zSJsY#<K?x<s?}d$rA8(<d9zYXDW!N^jC<rKS=9O_DpDWx`VYITm9IzOFZ<@(1U461
z?bd#yx7Z1m&F$%nY$`w6F}x(*Ide`oCuhe6zS&1iDIf8w2L<jocaHZ&;5%t^5Z~FZ
z@3;5PA6EF^e-FaH>%F%LztIRL7FU*y_;|)Gm$HS<W-DDY-Fg}w`>U-o)_%F#H|p==
zl+xeVc8@prn)Uu2brA<RXyn}#*{2G@pRQ7W=-phv_TRtl0u~onw`ThFexq}iEnZ~p
zYI~5*Y%I7dlS@`-ZGPMU7Zz^R>&f}QumOJm60$yF-e`c8!Q@4^U+E2&jpfssmFd;$
z=25cMoZ8-*@AS5}mo8Vjw0N_iB_-$=fshXHZp|+7eye@Z>Kz@l#2UAndxQD}ukJVd
zPs7nYvW@I_JGZU##^g%NT_~Sc4tL7+#reamIhg1)R*m^uI8~iqtBi?1f1~&di&}gY
zy^Bz|)oh(_^?M)=1b)K^tK3P<_+j<@O)p3MKYIK&@sGoPxnoxw%|-vnUp(G-s<p!t
zdupY6zI#$RtDIhnKUKOpDo&}W`0~&&C$^ewz?MXq=0W@Et@daAW5oT)cipHddq-y{
z-L>6?-Lr$KmFAvXKbT85dppO;Qnq3R-Q6)+r*3xDGs;!Jw1TXSc6SSO^mMK7(|-Xu
zKm5x#%2{vZ_4pubE}hP;F0R+t+Ex&nGZz!f^Baxs=~C@d&eFooa!x8aUp)%n-3g@+
zXXlM(_o63CUHrWFG!*(5Uy10uUwE5F^!nMv!rb|wls2r>nr#}ptJ94vJZR3$E;@Uq
zF?*aU-Kfxu(@LRVmc-Fgx%@xr<zD__gq{7F8`n8By@iSO`Kfl#x9#2iM$nsBo1Z;h
zUF`(x<-^6X&|O-bz0t*$X8yu1?manzzThplt?J}?R$uRT=T`<<nxD@$w%d*$ujb|W
zWWUv#t&Y2ih3Ok*ot*j$%lf|8BI`eT-EFe=l4)nsYfSI0R4?WxPP?tr%t^Yx8MV@>
zjf$CWjO*{z&9Z{}Uv=-52Q6{N^-Zw+pb7p&dC&KocZ@rG?VYEgxZm`Ji2c2<y-n;i
zU7X0Q31hLn8dlF1RtG!1cyH5l)=p=qN~dSprPx!Yo0oW6E%B#<C$@UZz@CnI-Th}s
zdG>=hYV7KCd8a#fk#AL!YG$oh(s;FN^hy`?<?VyTi7J{nLKRatd)sN{Z9hjm*rm6X
zETlJz5)T_8Ha>#DFaL!b1wIZ=tckOoi>Y`baX0oa@_FZY(~sBu{i)jSX<oh*81~_2
zRZyU_G(AsD-fH&F&L_-?L95^FO|+T^gWkl{ojG1P-s{0{h+|X9-_uZzfB8DD;!{hv
zDaYzTu+UjqPN&XJE{<0h!^Yv<cCX!9*(z6eCYNJ;?QrEw^EZOgg+&EMUj&ZWB+qUi
z?bk0e)VJLKb5qnuJ_|Yj$>-cA=j74x%9OircJ}<nggtwZ$ED^;G*>q3!Hl=RUmutA
z#syzkR15wW%A1_$AnVt?;5Jz=X6F5Q|HPb)*7x&MZ_Qfi&Q)h8c8|`F6LT%e$7Ef&
zaZMK|)tXN4?49?{>SAnfXzVq6`{$d`0Z>bA$cgS|a~PxFu+>I?G$?vlCI3#7OL=YO
zwo7RaR{iFId+JRa3!CX)`Cw;0o+ul&WjD$5^GT?&p?XYB-W>F%RM30z_Fny@SEQ+T
zYW;@su!6qoA0X%l-*cliu1>jK%byu++S5C$%WFotSDsy*YtE&~;f0Y_T9;Cm7H<X?
zB?T=0Ldx;G0fIica@&e7xx4-2in-eJI-9#YyOW){-uh~PX?LS%bV_r%eJSfy>E_@(
zt%CC_>wQ89Y*_P7I3c0rd{3oP+X~FzA<#S=MfBZ2gxJ6HBR8(^^44nOWP5dC+Mh|o
z{nfone3&0@SGS$UTzhSEJsFdE@@AQ*l+3Rk0XHE6clspR`*618-OW4AGnE8BO(x@g
z--7g?@~#`DcULE}h4qtKwpA*Z)+d@Lr~Y=d;q5M`^ZV=N6SQ!o!zJNVZ{Xy}%U^X*
zpnT-K@$k6ag)SOnN*{8ifAdF>_4z-3qpXwhLS`Ku*p@LJE>@1M%sSuqj@R~U{r#5P
zur|kJoxC{^mQ*18ykVk8ayO!1wwlnr4P3?33E$t`Me4uTzfG-A7cOS&y`Alg`4j(Q
zE^SAHsoG%bpmvs&xA*2Y#slKw&5K-8i~RWofZuNpTIYK^dk}T#`NW9+d>RojdJB^O
zYW+6JX9fqW6PDR<8_}7+94$8;XS$M3PS501TVAO>=Hf~VH%l(G&8zOc5S|y>yZ7{H
z!;=|=JYT#`$Yye}cRm;#+o$EdL9~6eHZeKxHr9>@C(9?5wtYUX7dK<LDTU!)G2)2M
zhtcDXe|+|I$)X?o%SipAufI{1o84~e>{z{yvE1G~>v`wrjfqlFTfUe*oXkV}WK87J
zjS+isT1D*tRgUhj{2(&F_lItlIW7(6PrJwVMQe2~nOv&vbq8*Kxa0-F+NpEWxRklH
zcr&|IQtZ|j+^oe<8;*XWj@<vMd7Fl$QM<jkw$(kIDO+2c>+RGS%pdM<Wzpn%b=|N5
z6GJaoTD&<qDXHY-FBAj+Xa!lnwtB0q%T|AWAq`fn1#_@4a}@W&PB3HlCuiYVqWa;b
ztW%|%mw8$(^HV6>k#;|9^!vX*h`<LweVf3$>(i$v+b3pTKPlDrcGjb8yOsC1qw3MI
z>#Xi~F9j~m-xvTF7IgqjlH|@&4_r@`p@(y$0wJukgg&Y!N5|Aoo*r%c<1gR>sxP_i
z0^)Xas@09x?el7*U!Lq`b0^-uH*<DQJ{U}IvXVpXn3}v<JEoL&e9;c@g50(E=gz@-
zzjw(fKK%mKkDMU>pI+Q1zSFiE#{N-iR9YJ~zuX9pI!=AQp9lNKblu3t*MH$=g_%?e
z^RhY>G%lbGP5$&#s^%LJ_Qgv#dXR~ovq|gZur*U!?96ZNoShvvH_scJTib^{XLh}F
zaJkT>`5U9j!lH^MkB^|z2q8U9XcWE#Y5(p^Z(G{6*=p;wzB+Y6bUAIDm)5=da%Z7q
z?3(9EeIXgccBRFeBTGp|mM=C#V?-X3qfk;i5|A`3N&HVlnM%wR{8D<`6&&aNiAMAE
zpzrR?C8wLSR;_#Cl@F@z^f>FCw)>Y$K2^F|x2KhEPfkzt&U&iadP8x1n1kQ(jKp=_
zhjlW)@P4l2-9K>Kb$E^C)3eo@vDjLw?;G8V`9|-&y}5XH?9b;1Ta|IuS-27VEi5YR
z_lBw0O+y{15HvCNc#I{z!lUcUc!*T}!=J--z?R-pr9HGZE9I57$T`^FFy}xgQM0~a
z?q(ZCt+w6?#;{6h{zi>jSX3JI#MH!Y6DEX<Dfp3kzYaaE8Iln*GBH1K=K&W4NWAmV
z+v7chtNQV0-*#2OL>Bd?7n=t&tAoS2jY|J`X8AY_7W)U&wf*B640hx}OE>43(<;aO
z{QX{|y+^*Y*W8ziKw;HyDB{4;(*U@Q??&=}^8OqBQ82Mq4JZ8dhMiV+I+Oi_sjW)a
zJ*q4=s{4zZtub6aHFdLb%qZh{&9wB2Nb)eT**@aGiTz_bG{lW=o^S5;o^~1OL%)ph
z*?+uI_?5Z6#rf@{G@n>XSI@Vmo9mOiK*_;Lf5}^JHrFrLytHs**j=1dVRvR~LNaAk
z>3X(pVs2ujPEVU?dwq!u*`B#ge>#o%_Uue|FFrfkEXTXq=0rMe&zmjd<l=NI%EyZz
zi#L-(B}EE-rq=cGyzc2`9B=9%@3(fx<o%oX9wptXZ$aGMr(@}5s;z0*85Im)Q4LtF
zSGHavy)O2&(P+;MraV79UY-gr8iQujZ`kY86GuihiKp-1dm(&Ob7OPwn3jtE5gl66
z)p2z1IfFW+?ESFw!DoERr*wXTzv!ZAeQxV{_a5by9-Tz^i09vXG#&n+zE(A6J$iJ|
z+@!s0gZ7+9_;k9Rc=TM2m(-KJ{#LWE9&M81>X#2lBaiooPi{5k(F+yOV%c`Kdh(Kp
zM!OT8L-$+H({esq*rha+y{7ZGkyCoPBHem6*30#(&fk;QUfKCO{B!TQd>$=3!``n)
zO!edC+wVQn+TT}=TzB00i`cJiSaZi`C#%V%x9ZJ0tBJERPcO(IcXFE3n%$F)?S5~c
zhNF9r$Pa_weea(lee-Yw@ivY&A-C__ch7$BXZiDUyoXf(xOsp19!)g&9&K+7fBygE
z=ND+%HX7~v(S2LD-y!m2#nZzNtLNXrpLgARZ1^n?y#G<T0xi|^_2r0E-*fNL`d+(u
z{+ah4kssvw_uPAt5IfRcL)%#Uf~Ks$CJWs8PkQHNV>`bpOZVq5NaxphpZD(0C-^7$
z%4c-`EB}rzzVqw+q%OSk8}jG}x#Z4o$~%Tv+W9T@{)0Df%b(6~UwQ3!_{sa_&hPS1
z@O{tdd{TaVZ|C>q$Ma`&exHAp*nhM2xk?xAJ<94FH{oFKuf0>=6d75y8kx1K=|o0u
zSZTRx_(ozxk)K78ZDp}tiL1V!SUj7Ww(t8@-!{vJmH4?;PNUdK6Vr38%r#?Ph~=HB
z9fz48XLcMIcC})7QJhqb)T%kA;U{jCRASo++)zH$i0m}>AgJOvsMU<zGN_4X)tKKm
zoY=C%I5v#fu<WRoB#veHS!U)|68ml(n~|B?mXnKUjvv)B+ltdTP7KR%G9&PlG|R#$
zv&)`qM<(B4nj%)2Pm%94BRlpp-;LtHj?LJOxuz&`v)JI*4BLq^zvd@q6gYO6W<aOR
z_PsQAcrMFQKBQKOP1iT8)wt>yhV45ngJGm5FP1agPBO!`EYmk)Cr=Z<%y;@>WXnqU
zu4U8=&rFRpvm+Z}5<5zaIFb)g9;fw*&cA1ahOK(9YW*fI?7wzC#&h&%UZaLbvoj~X
z(*^q?%lxC$mffCkj~Dh*cX4`svft=N_q7^6ORHgLsD{0_DLvC__@pSGQbYCVIyLN_
z+^B}n)N1%;g&ICvt6^(Q4X+Wqf3aEjR=WQ3R`2j+x3X7Rnw{S`KF{mBll#j%7t4j%
z&rxD~uPcn_iH~b3l=1w@NNOGw#`DC_PpdzL@yr!hsf_1|UlUL99q;NW<Iz%kuhO>j
zh!Wa+?G@8uFaDTyU;FfDVlifvp%__a8#byHWGVI{TWn`Wndi-_U9r+6b0W_-bMz=q
z0;}T3)r##K=pWk5J0r`94Ks6VNy^i<6}f3#v;8Q^(yCR9W7n{p(6rNPWLRiS>?T#$
z^ew(PHsW#|TbQTmV{lnqF%v(nnkFC1*UERKw%BbJCsvM_Wz#kiDwNn!X1ge)T`{wW
z@3M_bkU5n!iA|r+aJYoHQgiZ(QHk@+b&aZNWoBASF{aSY%qX-frWHllk!4hT-%Q;Y
zO^#jD%Y2`Ysl}0936LPpW5dRRxiT}sii1j&+D2{%VTuH%k(rrM^RWF)+>32T2A`JX
zreVb~YZ}L4fLB2vu8+z(>*M>eZ5xp+kimD$J8dhp^4NAQ-_GMau@f=Z2tUDUV(3w9
z<Y|<qHLf#`q6Ej4n0B@5R!o*GGLlNl5>`^%v=ep`S>;d6x@4(?-$+?rBewjS#qw||
zab!9;m0FB1z&qkgkRCUMT(&aUP6HLWYO|efo+89<$}2Zp?%u-k+VbXUdcJ=#HRoMa
z&epp7sj<4U<R@OztuzZ0n9`Q}GegUL%btp!+H(KH$OhCSWx03X_<?a7cuTIeUfICt
zHDv?O(3bm-!g8my<^J@T<w^ii7pM&34Ppohjs{)ePiBT`%}67|HL#7;<$2%8{M<(e
z@!d(9riN*wGN?w3E6%E+yg|Z@ALL0I<gT0Aj!ST`(E``^16Y$Zuv4_julN-)HA0GQ
z=P5CU&&lxfRvZ}^O2Rj#=wF@%eww*KU?4`tt%Px{g4Pl+Z1yk8D%gVW;%@USr^O^d
zx6;`4vx>*dTnjJrK}HSXQ4l}$E9i_x<S{~mR2HFOd^745`xV==jTHSM6nIF-Wn<HZ
z8zE{ChZO@$B%&C2_0+BzN#MGfUCI5je2?whT)OM?hS0S$*TX<eH>uz+3=?JMQiIG+
zu$@e<jNi;Etds9>p=p|>9<pU_jFk|?3<Co+T`vw(-{sSYIkGw|1q+rsE?xR*;+n3(
zcd`g>mgOuc4yF>O=z6u5X1R?A;=(H|LnXn`6AXw=s6=KGR=f(vYGI(P9Hz-0+N@sU
zV(u7*i7^^hfOEkI$ycOy6tOK>xM`WOX~$JFHX=+j(Kd4NR2%t9Z6jZCyNw*1;mPLC
za(3ZPHp*v%z+5_Mu3QA?TT5qIa|>2gN4FR2FwrW)MDnCoc@-vpV`L)gkus4dKB+8Z
zx(E}=`?N{vFfn{>JWQ<VF!2%{CU&lbiH^EDF_3$`fY5G4U;*2X!6%u+_E{DDNsLk?
zDb5GI$c#$GuGK0mD7%*CMr2laj|XmuGSuDoD_O-)aLBAI4hj{DbAx?l=fPQ?OAPT*
zMI+Xbp?cN*v{r!(@hy(W*jVVK)_Q-@Sf27WSDo^4x6_&3N)P<SL9%#m7K{3rUew<&
z7Ikwx_WqmEqN+!FQU6Q@=j~!qH)TzK_UANkePa09xZink;ddU>tNO_+tJ<on;Ct^6
zf;2Jwn7?XiZsNI<$Px>PYla&nqT#sr)QNLcj;Kp)!nMafXq3=Jb56xEQ=&pO3=OXu
z<Z(ho#8L^ctbUqNwG4=+X&zVI$idQ0qhhBSZh$3D?JTR{28=W`u^2#`CCD+tg;XO4
z1nN35_C;Jx3D<yIJ2zZD%E0>g;EI!pC`Mj0Vyp-kX;&P>4lqUhqX5J_imhsFId&Dt
zf=YmP#kC=j-q~+>U}yh2JNu2d?Cku3Gr68t*C$Gy<(At%DId>mq*33Tm<?Bs8>{(M
zRP{Z@&Mx_Sr<A$;@n~n&BfYcAo<L4IC0Tk*zh9fn@HMrw&r%V^dyh7k=jx4p_vOZ3
zg9JM?BQ2gSOl{B1=SRC7&so~8<nv+KnVMU5&CR7k=I3i|{CFYr+RrNs)=}_RM>4BN
z*U7y0V;b+?Ec1WSGQUvE{GV@?xgD^$CCIdNuRrk8jhWTG<<eAtGhbbpuV$@@tLywD
zh0O5>#$^7jk<99ml39t!U&T7d;>B2XCG+UD@pb;uE9?BvZ<V>!Y&AExR@~{MZD+aE
z+4J1><t(0z(uw)Q^Bu@@?Mk1k*ZG?YndcwZGAP|Z<RVW{kFHzi*|#Y{3#)%petC$v
zHQMkBS6b-C=B3PFjn+44qyM#lY%s;Ph?_P+)wN@%LVPCwjBU_#25taj;1j(xBYe8J
zTM29=cs|J4A~b^lK-v)|h{+PAed1D1J_kMouM)vxz(WQI09+7o9o|ktn3@*xmS8H;
z5hxnvk)43AK{BCjyLcje1%BP~32rek-*=+K%@Q+>Dm4;fVqk2E!-xSjf@;&CDp|AP
zn#9mFj1!ko8~UM3gdi(*wVi+L0XzTC*!h3B#m?Q+*dQZmRqgJ^MsJ}V#@X^x*WR7-
zyU|3gwO;JyEA?LfT(OsLjr88Az5Ms1y;P5`)4#X6diSo;zao2jzt+Dy+Gc+C>Rx_K
z@8z!qMvz9X5#@2f!h_>T{SDIgIC3Ij0*jyFc&l+vx)fE&ldL3S7kxhpGsBYz377;H
z0rc6bY6OS_g_vx&&+p+g`I#td@{9`rA<N=DW&nutYGeom+ZYIE;ksjzx7e(r4`my7
z?gVxjfMb;L`D8=n=71rsIBcF}IzFzN$P0We6ES>JBDM@Ng!k}4ky$0ASGB9|eCtyo
z&fn4y=N-30oQL!!&(nMP;bJdaKQZP@K0Mk>^+@gI-A~gVqwpoIC&%`3^x9Z7_I_CJ
z<@5Aj{^aFeUgNVL(wDqI%lyZM%!>s+Q2O_0Bbn7B?Mr_9ip=v8W=05N_}aM4|4GaI
z0xk3J+$!@!#+er>nS*Bz)2-Hj{PPz2^VA!LShDpCnxarfb9eaKxX{0*g?^C|I(Wud
zwsp-)SI!z~oOds#*Ul$rw`aYhE#In|lV`_U`<v6o@m^u+dZmMB52ZeNTyM8p>UWKn
zT0PS0@j`jSD5Rf!#<<kO*T$v(!||mKo^`v_4~avHnEri*et5p#Zzc5akAzl_w9qfQ
zveaIoEqbYkuPLDm9P+ovg$9*eAx4$Os=W3&SZE;prE4Xia37!sfl1WCIpKH!YQW4Y
zL4;ru;>>*#GBPrtxg|^oA*D>Z#Ia_JcSwkcGs^^5Mw0LmB;+$3B334G!;GsWVreDe
z1(PJt$r30Ul19=$vIN_3Gh$kzek+1$A+f~;B_97bssP%uZ-Z{hm~A&Mhgp_Lgd+X~
z5Eo>(<OL>_V&+<Q3I~!y$GVXpBWyK_agK;+kfA4L6{?f)gbU4qsa&e>WI7uCg9oC~
zKO!3a!&{=!(Zf-Y&(M~Y4s|qt-Pm?t3*mlU-hczpurq&TOh=y>zNWVOQB7q0Z$(1!
zENxoJ?MfOf*N%^~+IeDk&fVpus9D<fdS)1{wEgM5oym*Bw4SM*SgBCbFMV9wjZ)G-
z9VzLU6Z`oqO8UmPDJ?Ak(eSl#C4Hq<QZ2Oi%1b4^#vLs9b-!CPwn%gO>B97M$y^Fg
zR?e3Dr|t9eX1`X*te4vRSRwNp3yE%aydPIfJ51dce7)|<unNv~ThpeGXn_BZugLu5
zrOX22{(+`VzgDaY!?8)yd<X+H486Bqv+QKKRW%62fhBxuhG|71n2CT6w+XXBsKy2)
zk{hlS#Bt4p6r}_ar&J*lqBl7lykHK|DTFE{37K?4=|YMK(1(CKKwVlTU|VQAd`)O$
zvqW;m;F`AUkcE?bxy1W8iYtj-O<ZV2J_3lD!RYv;bQB~Y`>7#RopM&rp)&~k)hyw=
zp+(5@YjM>|YLGr)IYi?UbHlCyYv7oCmmd+wCQ}8d#3qCcWfEaXA#DVKI@oMfsTw4I
zVHHd%)FRljEF2Kri!esAWVuCF>*EUGttdI*E$~4>#Q}z3>s5RPW=$0{No+u_W7Qz4
zgjDt5s=&@kQCRrk16KW0SoM$JV%6L3DW^Bv7e~8uy<~6-K%Vt?-Np9c_#{t*+1*0b
z-k`1ebB9*#|CrWyrE9-8vJdr0IdSzee-&2k-y74l(QC>+-mR^=Qdo7Qqx^rns%#(B
z%JzSVvL#l;DzH?(U9CB|NyyyTuUZ~kV?n;uK<7zRAwfq!5)=r04zJBZ`Vl_etMYy`
z%%ci4A%G96OXwNLVr5gq_M$Z6BtZ()tU(i_C!{1^%>{l6!w+_h(+Hjo)v?(eN<(}N
z{+w6=9tHaQM!@StfjASli<0<hEfMkn7>aDdVB(YkmShWXZ{!da@*gWAEg?R@p;G^<
z2@rNIE63|YPzYgYmEpf*w7iDC@jF(Qs}dP>DJlXzg3_mv55<H4P}+IO%7j^x!M&Sh
zyKF<sM`T7B<RowzUR|=T)J>~S72FJ0%9>JJLu@!i!z07uDv5Eb?j_F?2m$O+Ur<wg
zKt?1ahLTZXwL~9cVwwb4MJ6Rd)H8x6tP#?DKhJf{dGZ16{1LSChi=i%{q>!#v@w5t
ze0JJvobOLJ%}(a;%p6azwfePWYoX9iO`dyySUAGf59tu1l=Huilv6#@2=tRzocF5u
z`e6n>A`O*tKB1NKm4$MCsaDQEysDf}>J;ct;kB!zFDAhrm4Yh8L!n$a3_rHYER@t9
z%Lc1XxktPNwO1C<bTW&rH$yxF+QAzj7D;ELN~L0i5t@Qpi#D_V)K-1VO(^V2Ny-<_
z3*SaQBb!s9%$wmX%X~O`kMH9ZTQby2B>s$@cVL}t(o!D{X45DFMWLI(fh9t}mjyV8
zGlGZ5r)3qJDpTZFsUCxA3=c0xSt^Pw!8VjjXs*MRgGMZ`pt3&tzy|*^8~ls6Z1Bm}
zLL>GsRxjq`lZ}mLmT$~Aa%*O()7;n!)6MxS(K+Z1-OtIt8*@K@YqZ1a(RJ?U<o~_V
z{S?)aVO{f?8dUI2<0!KAQSE<v;(t89T=Pwrl0|469!Y;@0k<5=MdI3t2I6e2ly!o6
zpnAsQ!~0`f9yLDM5`F<@)4}91C)`I)Vc4orpTpMp49ax`iLz8z2q-mTUQQ`GN<D0h
zH%R;;-a>3rS0Sdt;A569o0a)+jMTv>5TJdOEi5TU#~5su@RupE)AGe;DX&xAq@Ye!
z(@e{0SfSov*}zykaVTp9u3s)ER_Y*j9z-b_yU-vuAugdxLwJLU33F)&prRnvKp=5a
zwY>zbp$ZdcG!5`u=)TLMB-B^nc|zaKsAbkL4^)v1Kh3CiAR=xzWuYiOL>a2&z}7^r
zX;sRu<tfL}`2Y)lRkb=l$WxTx{+YaTbNS8j4;P#zqU%|3*zGy#TE7*#?)1dMX}P{!
z+H(s9dtAf6-!44J<|AVs<lm0;OFg<yzczJ9yM@F1RSl&+TRV{7zM@_F>Qs*M5>YU?
zl8_Rn)GG-sRHVok#3SI~@v>kV`~zU0C;brZpn%HyNi_^$;dlfKR?u{8FpU``tU164
z1&AFg5Y&D=@&by!D2<euAvp*U)PO-;QPnaa$WauP5m{xlFXStUXz(bp9aY_w87$Pd
z<rAR4c%LaB;bvY+Ih<6)ss@H7h2L_7wt~CRd=#0)g}pX%5)!`E#&yAu)0YuuxD*Q_
z2M$KQ6R+n0$eawyC^w;b@S_A3tpig})qy#!1Jk$bKx64}vl;t?u0ORE9xe<PPB#u_
zrw5%hUz_z?$9ACuk7ynEM4<zXKhZuzMUhJ#_;;cWN(b&fTi!5ATpAx9iz0VFt$0mE
zk%CA29jyZeC;Ev?9k?b1SUmK5i_JB6560?Z{<P6;RHL4I*qA+A+V14jbuDv1nxz_#
z?hifV-MeF+@v?V9J<_r7NfC2I3B37n{gX}to|GSkOm2}~8%pXRdxrLmeACD?UL*IR
z)wesVN6oUmez?0HPba0Gy?E4arG6>t)aHlj)|YCrzkMk7;A8rW)nfnsk-@!xwAk9f
zMtJg2NAT+i=p7xh|9KIz%UbNeH72%{yOlC2llvYqIgh*n)-S7iR7`2-siwrx43j}!
zY1aUk;aSNwpsI1pb`qy1RV1_%_X~cfy@%=_sSbV+ViR`R5LOZ01>TcGWKuzOP<7Wy
zQ_wqkfe*|R>H&boo5?L`4#IcZ6&MNd9jONP#nU)+XlY`-!kMrGWy{U!LK0E|!-}YK
z3msjS4k^l08TJ>Dh5<c<jfiof{AOU0Yv6U^HRu)*z(%o{ln4VOrqER-fs57%ifDpc
zvBI*{cVjcaXJkN4KEsj9wm=Q(W}-<8EE3oi+C-%NivUQR5vDf9b3ruFdtzEtIX%3K
zgc=ez`kx#~UNLn(j)W1)y(WKE1F#TL5q6e@5Ql_oBH@#mM4JmC(_lxaN#jUTo#u4<
zPxS>S+7}$%?h9r%PX=on@m9s1thA1kxH}ca?W0l@Zkessor&YZu70AhtBYq2G3AqE
z3VI!;d_Y03V9L>J<K93svB6Ikc6Iv9TkWb-J9O4&YK^7k&9qXU>+Byc9rqeR+1@)k
z?Ju0J6h7=s+tptl+STUYSKqA*XumMBEA{BwK=uxWjIRr1MFZHU6n1s4?TT+2xdX8)
zwK2-B{)V)XpwAJ8Le5Gd#AZ)P1^~2TGG)R6ibanfoEj)Z;uvs)gq$L&Kp)~A=@}(k
zAOf945DM@E(kx*Fr2m%mTu}^=jz;==c!!i;K~I!)6A};DG{O>a#FoMlQOc&_fz}E*
zIZ;Bx%qc5_J;<a8u_6W$Ft4R_c>t0Ls1>Y}Dm1}}77vIC{s|)&Ad|;V6ovFP0exs9
zsraE80RuzJ&jYNAREooSMjVtW@!C~@Iy{4iQNjo~;Axldl2QfTV$!e(Pz0^f`a%44
ztq`rJ>_vW`@-92a8)19Cv@im?a67b8Q4xn2!k0)}SSmpr7ev1bZ}B4R5)e;e%EJW&
zqzo`E(%uDPkZuKB33&uf3Z%S}J7D>UK!XXOj{Y#p9wfXZxFNY80*EW1|Hm@Z3h^53
zQI&KRSdy@K(wqi9;d9w5so~M;Xw!Cy58$H%WCg&aRKNwE2-%Xju$oR)oC%9vq5LC`
zCkm@@Lmr)Gq>T6oFldDm9vL|H?%<CEYyv)9@*eVfGr=`NQ}7JUt4UUcBC%+UA&muU
z(0L<zBOMoPnIL7!Xyo_9IMO-j`Bfa*`YWU;7q=kDm5sGh-k6wimS*PCt%LzsC-V#I
zz0IE2-*U5qox<`8GVZSy{vv(v7=rxuk>ROF8a;gJ+q7wF+A}Q-RkPf~*Ob3_t|sH&
zuF-=|P`t0aVs@=_oq~Q%P-FR6V4#_}Yc8H<6t<j3yetZ2DYBXcD+l97!w*aZD@bQu
zLTObp3wBZVL`s_2Dk~40Rsp%8F7&&ANC9#{Nzzu?QzuicN3NT=@*VP?lnx=i%)k4<
zGXDX~{K;FE`K&v)g9U9?&RZvY%d1BR?!?CYS<>n4?^tJBz13owi^BCqvCMyNQ-fM#
z{wjDV<D=S*t7RU&rk1%VT)*uKNV~XP=4-&t$)0hxF)`&`ER+VFi@ECjM2(|%LF>eu
zoJ|{x!`{B40P+<>nF|>d*7>86YFsvAjN~dBF+OmkPcC@cww77fn!GWYg{S>ptr~BK
zoq$4xg`hVkS0z+XifdK!l$Ij`x#Wly8bBFVBLJQRL%J$$np|*)_%4aVcx^y?>^eYu
z0FZQQLU52q(kp{gP{vALM?WmQD0#3Ql5v6`1fl3g%9infURdbG(k*(iQma=x%%SL%
zd@t&iXPmRi!CExCoA00PH_jTTg<kxw4t(?@>jwO{jAw9{{gWRb0m>(y6ipc6;9Qw&
z(SZNNM~l~#Vmw>h--%x2-`8<(XDserqZxb6>EpQGH%bSGgZ1d-xN9%A))p$q;Zi+0
zc8rpiI(VKgI|OeZ!i={T6*{FGs${PkwtwwX?2i|MYTc+UiljyJ$lVu@i~UM1_SY)0
zgU>IBjlX(3%!rnc54+wV-ans-y_J5pT-rH5aGK_z61d(>?iX_ZSpknmayyUdR7lDF
z|BrN<2iKo>m{Te}eI3qtjh6eJTJBFP<UYS$?uT1%?~k;Wuz6ZbZdh(r@X^_lO6o>h
z@+C!9r@i!*<-ViE{%cz77Zj*&drVEl7!A!M{dLuA?%-`n-vRoy3Ydpxb4dgo5)MMX
zlm&>sIA8)ie@jG*rJpc^>6X?NpSptJC_zaQV&TKZ3s)frF?4K?5+$#|tx%NVb)koW
zK2R&dM+4SrY~?LwLL~493x~GhSNYEZX$V&5As@>-f!;BFj1q|v8P6|$Y^sA1UJAMy
z@Isz%)Afd@hy?N@fdpvzH1a7)pF|SsLI53(i11DDLbW6pMjO~bKOI<%&<)p&BcWvK
zS|m7W=0Na61Vm+<pUGPc!aRps@G({;%VXFBvkLE!*K#K%ze<Fuj6K`W0Y*ZHO9u%O
zf)42!f|ARev;vEt3Qnl<<?wdkFq-fQcsM*agy4X3Wj|OBiU_O<%oga&5BXA3C`wtp
zkJY8~Q$7){9ZChE=_w3N>a9dyFcFCuOCs47r&tV=)^%Vh1eb7r^axhKsr*N~lk`&y
zozEhg)E=lTRY`#mjE*B%5F#zdWW*ukpfjm12q{-{aO84=#bs-FbEG=t{Th9#wEuHC
z7EzwaO<{l|DOoKDow5`9kyEv*c0dW)r*^>d(#}NxcH$V0W>}v2)U4_eomD;S_N;2w
zTd#HS`t$3j7mJ(ojncvX<l@?5-ZlL7UZq{Q4e!&G`FUAkeW4C?Iyw2|$Z4oY8Y5{Z
zJ}g)c-><E2_}X~zzN>xorzs!p#h1ZbQWJG`lA7H6wtxf~W1;>BlA+VTQsF1U94*oU
z<UvieEeV(;Cx8@18R#Oz8nQsTn_`-=C8fb0d^l4w5KPGhaYML)()mB8ltakUZw5!~
z)AEg}f$Is8azq4`;13(aznBg-!mohn3!W=}>Mmq@7n0j|!8@5a+nn7f?}vL0W9PIt
zoAoNSm8op6vsXLKX3vUH`6|5&UtR1%a#wAG-i6;B?ZRch;@u~Tu%bgwTm&G!3x4s_
z_%1Z`F1$+b!dG401$A|57rr{EkdBG(5kCX{%a*XF;&n**SQIiw8&`oh0&c4Ru_5w4
zO0DDuLXPnNQ0i#{NM$<!q~cWh72zQG?NHuDCMa9TK2fE{FsW0gF;2}W*o3co>WY7z
zUh%KKeZ{Ai2L0x=lTK`}9EWqWGo{e=))<-Wq{nT0^C&1*{5$lDf23IPVKGz%%j=4#
z4`36&*devzqu11m7aZN9Uh%)JSNtQFD}D_$vGcPsesbb`XKR0@##H;s#k7mo1QTT|
zKXa;u%-^PE{;5Ld8_s0i$SXeaxF}5lOs>kT+c>;AE%Uc)nSbh1X0cVZBT7qtiDcIe
z@UCW6s+tK&AMpz0X%ZvYYs;2BwnTRbejF5pz4kd2Q4Kh1fs-SVhSMe>k<p?YICK*5
zFee^xfQm+K5?YC7)O9^R5Jn7wf*69e!>>!!rSmh51408P4IAZ`!N(YHK%P&hCjeN&
zsJxr@1E>bPdXQ0}L#;hBq>y$UdWfo|PO%{++6t#2#dpxq6BenG`v4>kfW*tUK;p^6
zARP3qMr&`oUhkQQ_5I1I?WNQ8dV2=E-XHdVzfbSrZxuV}y=~0SukE|~+yazoJ0HGZ
z+xhUdaXZ({u=hT_gTH=d2V1U2I>HA9(i!iCHD#GBY~}~jV~eLGTvOD>s!2e^_VK~8
zkA~PL&7}Bdw#F|Li*w9eC9zn0&Z!&<5>oi4jt)iw2MOcK>cSvFkFdDXH393whtW!b
zbAjlo;T@E#k;(^@CEr2ch#V@lEU*cR!0|i^>?Fk&OeU10Qzf-^y^J^GK&bY|9z1O|
zgJnT6T*@VQCpuavvXODa<bV@Wk7^fb7Ja2~8C)bS8iWfuQIyiHMJESv2AzS6p>2zT
z7@w7L>I|-#Yv4}?6GHPcx|g8&ru4)Bsz7?+1_iq8z@d4Cb;A4c#nej#et{1V6NH2A
z7EH(YKcH9tJ9_m4x9HXJYB%Uu{^rh7-aZ|iB}d-zM)ksp7Pj4Bu|Bg_c!mP|Qxn%9
zx-+L@fDRxZ8U+yb=sJ$E^E#a?D8*7b$zQtfNT*uCXA~S`f&D-G0TBKDTD3l3REtaI
zj2WF0M9`|7(I^XxoYf+r5r-1#`2|U_+=7NsCUzc_3RPc@D;%{E0^FoqL$p!IDwa}e
z=%@~*O`4A4G6hL?lTHod3XAM{E{eyIEe>;0dxe*V$BqDj()U5f4o7?-@7R552_jTg
z%$!m$Crz@v5+WUa0A#}!ta*aAuyI^Klu$JTlL@Q_GvuPrH4_Bx(h^kW>(CwaO3*9P
z$kUwL@<4}>gFsAv$W<>u<k?o9Q)Et@+^c!0Ocqvj>v`vkC5~M=a@=`6Pf<VpOY+Li
z_0xmR`82;cbi4J$J7`4x?YS_VGs|mJVRdO@use)!pQ?S$`wNv=D!jjnaMzwS(fzi=
zc3R`TT7`6k8@{G|O<m_zzoMhXtoAkEb?IxaiEy=Tb3WWWoLW1J7N)mPCbv(z)$@hQ
z+VnzbF2sZ38Ho2QnS)1$dYmlkkfnsa1VWb~ZltT)LB3huJ_>QeL{SM{gt#x$LVrLD
z{U`qmgbtolSl?U!9I5}?DDxf#UoCazu`%m=;)>Mo&`bSuO6uT6MG9+=S>H8_?M*I+
zm0-u%nAja`$EQ1;YNLE{l6I}7{Z7_62n(n2Y^@-}!$@|n*X{wn;8N-b*4iGIdi0uF
z>*r{x->28QD6ZbFAWgr$Gj%j`vgmQ}U?N&-Ek#CH+x7a^(#%CCZ51+Wt}*zU;ZlEP
zLBuJc4@QnoJ-W`(edYI$Daci!i>?#qMSK$b^R(3RO;?I3%4$_H<?DGDu7U)eMqlW5
zLIo$cC8?%TAOVwB6e@;Z?r=PU4AtNOFR_(62z|y<Tjvj<LAp+;KT<vrAd=GZ#*uas
z7o3=rInqnOA#4Jgv@m;Bqb$WxP&HE?_)z>IJ;zn}dy*ZvzQm)6h=f+!OlWQ-a#13{
zcM8%X2wA+@4qzNia2OqBQJ72lfpgh5y><YATrwxxSZbb`ONEDs2q>fLvQo|&x>uow
zV3=}%*75x?hj^5R06_`hd7C<_0Vbfd6Vj2wDO?V&vJN0az7TK8hslA~ga$ep)nL&|
z1@}M%rICuVs5E;Lx~a6%+ey5o0Z@Xz<v@WVpe=5jt{jRm6rk|&q<ap<q?}-@Q{`oG
zn^zrb$Wu5}PhPp%p;lJxu$*noHQRaWEs-%S*5j$!i(WA89|e;Oi-qnL#Go<Mz3w-R
z8O*;J>7II|bZ=zJ+RVFOJw_UjUQ-71MrAP4Or>;B4@C(0rYpLqE>P*7JPM2|4Lugk
zAgq*}+^IoNkXjiYMVWwtE#(8LL75h(tH^RIU^CBz%V3ucNDHdEl#A4HW(vjZCB05$
zV-?4-pngKm!uqu5R#<Nn4CsV`R4^c%ecy8!!U1PQxtP7A{)Q@~rbpYW!67R-X>EJ-
z$5Y8;cVqgX1i6WJu)6^6Fmt>xaHX#p&W5l{kalt-B%_c++rY~zw01~KmQDYX&~55y
zGYxW;q)f<_o+T8A90OL#Mrw<;N@8`Hlkb=Va|$50$UOyGQYe9^qF93H)fDE%@~OZ{
zGa!ab8z&uHcG0H$_N%(n`dXmbSKXpDM&DjB&gK`~1*VBq=Vu4b`F^9`Y#ldS^|R@j
znJZp4aEDrR`W0FWl*f9<NNd!i>pa%!nQ~Lt(Xxfdsuo&P%>Qu4wC0-NV9!;8xyj}8
z<>vOT(K_wUH1gT{ME69>17|e(6=L^vB&G#eBg(i)M3mT<M=1Yb6w~g0s=^CHV#s~l
znAlfY@DFQcuN7kdLlugHr7^LEmVLWMlr7P8*9c?Jq$yJhT2{3R$hK|tRCq&rC>=RN
zC@mV|0ns1Y#QCWPHuKAFNU{fK!Ffffh>&bRxCu(U6yGQ|+X+3yOyJ=3A!?RzHiV{k
zE2My0aRY;PLUcOe@UfKO7yyFqU;tH$En!Nok!At865k7*%W=5aRekMb1kx#-c@UF;
zN7_)(bkYJ-&O1wUprT1=@Z-?572@vDc1qt&*|2ML!^82GC7VX|;fzTtC|T3lNSm3|
zfF#Gj+mbeumtmoNw9qQj7mSi8DfMF90_ADkI?S)?vZm#P6xx+#qstg}nSf++a+{@+
zrc~k;*2s5gH~KHcSzdLc|B|P0qdzRK-0Vj8cURKm{(3j$W>pI%*Y6*1thy&#Q(<=^
zx=1F6lVyq!zCYBgi*MJOqBQGkMh2lCU1ty%_s7tZ`c?iKA1xDX6`J*^)~wwz&AP@Q
z9DB~RXHPc0K_flwZcY2?>Q=Am9Y=fl1u@Sl3}R2Cr5`Bl!4cmN(o|AkR#(&`CH38B
z6z|Z^-~KUul{$4FzNVaiK^QG*-`~~9^an0o|1~mSEUm3nJIQ9ptFG=%E|pGV=WsAJ
zv47&(dxz#ladbO)et}Hu!?iY!#+=V(5^#y9M`1}zefOjKDs>WY1(_BNbiR^07#3G(
zNxKrVlrpK1b%^p{iIM_QdZ2E=AP+3T%AphhEYJ>+1=twO0Avo@jiosR5D0vqHhYkd
zA2T%z9R|-xZ@pkC(Q#@2650vZE*Jx(1;bA}3Iz;$Apl4;vSNm|)J!Fq!0!T!jGS(5
z2@H(3qN@p*#0$KaZ^hoE-7?8)(3(&iG-p8+A+}Hwv@H;DQXE0Vq#Jti2{lY)QHF`V
z*JxT{){Pv7Ko<EFru0y?U}^%PlxB%4ld7N@D76rQXz8vZHT@U37pcdPIy1-vH)p#Q
zGG7QQrdZ+fh<4b#2YMr7G7SvQR9plRHRZ$bEwq0V?MQE<AaZGNA=c3xS6H-U<quf&
zt9c5G{sMXBW{W<ukK&ElPCHs$j;A0~ww&Wq-|Lsw4zrfmnd%m%@e&;?%0n&df617Z
z{nL>}t4G&abiZILu3;aF4yV@@7X4Cf(RatR>>BHMNQ-W1i+)dG(Qp31nAFN5RGs&-
z@ObwnS0db-)Z2@C>FBj<EV`pD`X63e#x*kUt?V34P3QH){zi7P#oV>($;?Kux?QeK
zw$`)8aGKbU>!tRGOC9~Xc81Cg{my8q)uZc{I{MI9R)3xI^uAuZp`XwzZH=w8kibfn
zls&I2dxo14x=UIDshQCxhG{vRUx4rR@|x|%ro~}17d{6Fm;_`K8MCSQBa|B2Oyt9K
z31NyJg#V*upPDF@L28Bsb&g@`hWI#?^E#+M@i4(eRRNVZ@Cia3gGaFy>>Udwx!@gw
zcx~Pmlwp_fI?{SXXLQ2MJt1vqS|bok+9dt`cI44IMx?e0|H#Iy6F;veHI9QqC*ln_
z3n!UO70*C3qz$J`hZf!^a15E51RIEd0K3xfh7+SBj5ab-KFDt11#gkB2s4Vr%o4-J
zKt<7j4J051OgQ3B8i<UPS;&GoRXXg8%CA~&>n%Xi^;_&UHI}xHPWGGIM!nsNTF2{a
z_U5uvKRSs@v$LIvlfqs<Q!CLMhf37>6&;(D68+>ziPWR(l&JIb+ET8u*8-A$dSS1h
zskMl28byU`bpIjkbywT#kgsq*sija-D;%oq^%9Yejt%KpHhjO1W%`$=HEz&SdvDUJ
zzpL%_cD~}_BCz)-da1+VQU^z4LSNRIE>BvI4t;8&{l~`w@ZG{-wa^7@NVL#@rdJxr
zFj{Fr(YZ#^Z&Ai7WCJ0B7)tz<xmwVhBty0*6Tq13h#uzBA3*MeiByR`&=-Py2|4^{
zfwck8oOXf;W#Sf%p^RjpzC)(R%t{H7bczyrrE8nn8!m@zh>HYXIYA{aOCbUJ7s!hh
z5pOBLXH_QlFm8fbc-WeRML;=jgp&%Dn28<KkpRJl9A}k}z_>9JI9w@2P}t$@6l4M&
zjdB`_{syCB(U3^}0M>%$Ws#D>k#tG}fRP5PgUleVTA`ehlGXvbo#Aw)LWD?IGM-4K
z(8O7ij54_gK82&>(m)OXr@N8!+Za1@`e@%HYo?3bG&OYYNI1O;ox40mpxu>MZVt2;
zPCuQWINe>T49*S?C#UknG%r?qo3(0b!3}qY?ANQcHhsxZo3{SWnD_trk>RRG*BS2C
zJ^lV`47Z?1i!(8=)7tcktJ>62*QdO{JPJT1P(0u%YUNNgEME-SuBte+=hIKh)F_@L
zu|j2XJfclNaB-Ct3O_(A0W&nKFyK+*1_x|7XIBwCgeLe<YNm@mBvpFh1s=+XQJgo;
zIH)A&hH;cB6Ql6!uAJ(n+{{r<Q9V&4+ChMiq+3jjsZso=X*~;a4rCH4nC*yaBo^G2
zi0p>d+#}1&WylmK>rfEUawsdhUx_YsUGf8pVpM3gm0~1q{(L)eitZ5Pps&W_!k`+^
zT`F8Sct*7WPWfeGfCpJY1fdC;Di+5y(Q7%N0E(oTKsAfA)vDVBKq#RN)i*qvdJP)=
znN`P_6QioN>y1y<t~YD#`jXqV%j!Ejai>1G*qGXA(lCA4skR-fUD=Bk_fBWh;n1Yw
zy!|&8c&M!1jm~f`dm_~%rCblVs^R;!fBm?^8O7Q47im8DyR@s)JcaiSm!9gHnDB6A
z{NM|U@v2|;tU~JL!eQPR6$&3Z>^^nhs|3A{UMVu1c_nr5g~e=x{8^WB3nEgxqHLn~
zENnuu5P*3gj>@J=3UkS+X4j_h3~`3au*>4cXkHN>fGi`WijKeKWokoG3!|Nd_hbMk
zhV^hlodHKw&naG^;}kt52Voj1;05ZHNu|Pp;G?iE&Zh!^5;d3;U6ht#@n>*uxOTG!
ziot}i3CS1u4ylrpTfv+NQ-Hn-XpxiJW$O2|j0JLn5yAj1w5u{wk?e@~a9|9V46?yl
z3Lzl}mC1nQRGhd^2`hAT;Scb>yei{9F(3Zo_@I0{rVZsm4c1Sk5J*K%ioYD|;mjqy
z{lGJRgXE6S!pN|F!9-MB)5rlN3WWk|A-SInz{FhSG@FggWfp>^1;^2SF4>PICoWkA
zJ{`$$HpCAp53>#&$3zCi<)o&x08oo&hMZtL4qHmv22TwTq(y*Uv@%H<W~_U{z?mMs
zxiaEa+!_bt=<eg-1mTojslmVCe^^f$vcUB+T>xlG{})AXU^25vIEmzw5(;dV^%8k_
zA3yOwB;^+!@E<uIoDR7z$Jy~W4#$(kxzNleZ-MQkK59yfQee_~1Ch)6NeiD51VmJb
zE|g1#J21D<uMh!QDb@<vxFq5^Dk^1mlnh8fRHS7mqKi=qrhGb|#m3?4_$~fLBpDBZ
zq(T5o@Z&5jUFrl`5nHB5AUaq8zP^kmv9J`w`Fv5y$Z$frd^tWS8&#9qx-1<yA76-0
z1=6yC^c+uTwilydO*RmrDvbIxnOV(8ab%%faSgH}K8nkg{t>clqv&6*UyZq~CNQ~i
zOSFAR-}07%@PFs96WA%j=L5dwlJj|hJ#k(==37RusSL63ExJi4`0}Ev&Np2_Z*`5{
zzF!^N0jmkOO<RMkK2$cQN{c4}GJ>eEX>_3s1lx|fa2kW~ONE>_@E_fiDhP|)F_=e;
z0b1|_qJad$n0egvF2JLb`*3guQ?<)g+Qk{j!~SzHh8e>IONt8e1BT3iFw9$Ky^)9E
zh|m~(Ri&E9s5Q7nhWSt&Kz%`Tu&ETjsMUzq602aoxPU);SY@gQbP3+lPG}L3bL(yp
z(maO0aZyTk8>QoyL@k9SwcvnwiU^DW(qv>ap8+YjXnB!HjA$T5aI4IL<p>3%Be-CO
zh$FZ-D|8pN1QEasVfMUR-VpKu6he3jyODpObwqI^m$_pY9qU4334X)^nCFZrVyP%0
zhQN1%0)=t{o3MzOXeAFYR>XEK!at{>5RSG|$#MaYc~Zmu$aGhaW>*{(bqVoKp2Ouw
zMEjU-1ByB<vzibq;8PCWicPUg_!7DoS;r8zxr#65V#z^;01w4$@-K5~v19;<3#E;i
zxM!RfJqvQg1oupm&eos@TpMQ#k}{pg9M1}vhbetLbP5xkLOFEoK_tN#W0GNxNz!LQ
zPHxL2TQo<F*+}Vf<r3T+8l65Gvxd5n<&#kqjgv1CWO5Y|e+Ey1h+itN+>D5i!;6__
zWhw|3&YH9RUN1j9TW#!bpB|*v>Ga`gtW(+GJq5%0qeB}#{LV2*{Cy)x{4sf?P|Mxd
zX#`N5KKXKGqQxPDyKh$6S&<dKS=TA3r$|vwrv0li|Nnf<NUs4d4<|U|&p#m_x;KRK
zH^_Yn<?r4pB-M%G)-R0tmaB3X9Xq6gs+jm1E%rDIF1SVQjKVD+689oA9&>C|LJrO7
zG6h*OA6m>APEI(Bm|MbT(@D!<T_7oHW_eBpVwPl*J}Sy8j3<%8f<%qD%CG^Co;#sS
zz$5U!oF$EzdJ=Q|gc}&h#C1x~97tzA2|<|Oh2A7>#4dz^l~!n~$Cx>~#*1ib6<2^u
zpy>yzq+^i&V1{Af*f`0`r-Qu7Tlo!?o_P=%lVGqS2K<7{rEQIBIoYJtmHi6shH>t}
zNQnWHf#8R@-GGZl(=g9;2*@HzJHoNzEBX8?rw7SJC9ca`xdL7!+x5AfgRBr8{2t{M
zVj8Ygj_Fk8)MFB1;-Cmz5U>ilF>aPZ{3kAtWtRSX;&UQrZ9!CEE149Ai{<VGIgUJG
zbUb;w<m6<-xLF_|wRKo5=^K!<jx^{?QY1&bNF*S|d6r{=)agm0nIwYu0yH|F1ar7y
z!3ZSOY92RppD5Z3wZ)_n{2Q&AI3?Cq>PW~Yi4@?JMUW2-s0VW*4ey5FQ0rN>W|PAK
zJUKKdBW75<8lEs<^gM`zs#m~WBN)viN2+P&W0VqgWWqM9CQ%618uef;a2~8>CS_*A
z3n!Zs93vixE-bJr!>|q7@neQx$dPSE#g&N<VXY=D-(WIYwz+EtYb)L?E@pbZ;;O@G
zy&5=h=N4D9HaXLqaC%$oy^ZQdYo}3jk4~58j!SuZyj`~&!%q1E4UDLq?vt9DQE1@W
z^8X(f-b7n$_xqIN(V4~*!`BoVcuad5YQ)N7i`J9iYWCfFg+>FR_zn6PIT$7tlL%^r
zv+i;_RCEj51n~o30S7Rc(r0HmR20;~Q|g3}rJ-AaO2wE!hXi5fbYb<xbkHiME=5O~
zDNg!rGWwNm0#=KXQB4&BNKP%viVMsovf0cOW0SFIGF;gc6q9X~te<FuL19tMqvxA|
zhm=Y95`}yDbuu5cPSPNb_sbknaHyb7ybb3`WbzYmf=}gR2wK7~afcDx<ZLi{N(>U_
zMIsr8Q($3CBWDUA*FzpbW2hsxB}0+K84;xk?jd8E;0rik!L<mkpb<y7paMl6KA<+o
zs7?PCwP|c^PNs8vd6Z7?*Q+O;^Oig4%unx5Th)ohi?f4*Y<-z#Er%x!?~Z5HmsN(b
z3Y=1_(eb9ckLh@(v+Ch%N^6RfhFe-`G}Y>zUn0nBg45d0O1tA$XRYOab^pX)Yo90i
z$w_a48>Q1QpG+1q7l%TICps&I9xF{({a}h|y|FXwN<Z5u-&QggG}Eq@`7=~#dhm4Q
zq0;kv-xx58F~K{rQ!tJEjgB&7i;WMZj!!B?9z^>O%EqZ1nV^6}g{DLa0c;$pbt(h~
zI;j{MQKf~`W-LFXVaQk%hZ&7>`kLWf)Zo!H;Vg08(xP08%LFd$2`41kC3>Xzm)0LW
zpdf#Sg8cC<3bL1V8)oBT$Jq{gwP1sz%BA(~iNodITFGs5Ps(Dk3)<z|h6Kh3)M{(m
z<+3MyjMo0B_??l0EFbCjYXup;HlAd>LoaqQ=I|Yt3L*sYAL+&Z_nalft-BnwCrRU|
zH$!6t{_}^(D6qNe=N?HM&1ex5eoe;{G7ip;q9{$Y(rF~22BQ*(&cbF6t_J^7rB|rp
zlGLi9oN^T12t9x+&2BKaK}2;1Mims#fQhi|mYo_w-Q@^6yfHvn+TTJt>2O?WnZgdo
z@QsiTBIc;!;(UwhEa|=EvGg_3%tIxV*?WKyW^0OD13eIp^ai#c*uZ@@uye}>u9?fr
zo3mTxMt5_twja{bT%VqB>I;Lwojg124+lIX+QNUS*uc2Jm&#gxdxSvMBh8yVDf>6t
z!0N}xkld&<bbJH9S#Myft>qUlH}Dz@_jWcLc4KR|+umAUJYEa^^^?YSztWoD@JdJR
zIj>N<&(<=#h0IHDQ$jz;^{Ea4CG*INbu2SJIi_@@*ObgfE#-Au=3=-~<x*x*y0%uj
zk4gI^`o>+Kz=Cpmh=>Ft#I6-I5K5nkC9tK`A|yE_j}j0^`Owc9S!JdkK|?SMFadoM
z9K;_W9mDcyBA_=W5pRHhU_OM<z<dayM8+b(HPqxjLEIb)FbLlxy<-wUDf-dA?qpTr
zt>i9RaAE`}KF1=JBNL99dC7b*;X<m?2T7c)nRN3AUS)m;gqI|sL`cdQTJOH)0lj-C
zdiSlj=-u|zaqLyy>i%-HJ2Tx+S58+>P{o;}#{Nu)>n-+BQ=i^<7kjv<_d)OB<&b9-
zaCnQRt9m!Dwy>yQUp-!3uoK0hv4XE1yZ6R5dKYc1>|5pKetpYm@1L&PcJpFsVQXn>
zGf0n3uRFY7NHHtmrwf_i`aT`ql&$>o$X3)NZ7W*QhE3^jeebxf3||}9yC2kgSM(hJ
zpO<=fjm!@@OuJa;?<{04`(rX+%Zp!K=W?+x*F^AQoxe)UT&(lirOaY0-=b~hS0$&R
z?!YvB%HWuS%qOO=lTpHGEpUi4wcOJN<^qBZZcR!S!n25J;K`+>lBkA`0s%1_C`r;e
zX%VIq6JW*k7Sb0SX&EF(O@({XI4~zNyHgHWFhrijz@yy7-8f7t6LCO#2YpPXg_)dy
zK?#=(8Irt>qcUJiJ`9X5Juj;I0aS%HNf`{vD7h*D0kOgSMD~hNl~acRGzXeompa}f
z<iJ(h;2-l8w83}ED>u^y3yWK>T|Tvvnc0rB>MSni#&NP*?HhAj`%CS!t-^F(sIzbS
z>2-HwecX0_X{3khk<!DvpD&v}8Z7o!JriAH`O#}i4~w$wpXxm=W{q>8VVv0OsOwY7
z_a4_HN9kA?)(H-qKuE}=l~Lx)63%kPv6C^`vB&8nS}SO9l!-hvLb7BIWloc}Ka-S5
zx`=oq!=+>LByucVnS-Npx!)h7K_GT0r!ttIz9sq$iQQ5cfG5Mx(dx(vx-1lC%xAca
z+=q{`fBYddb0h~1<2P)hOpz?jg)WC|qShe=4oZEJ!b^3u!0&Plnp{|jG|AhfMu$eg
z=i@W+jm%{v5hg727$%VmmZk~x1xh(_gt8`}Lp({2haxcwSVm0&-*B*C4DdfV4mL~%
zexXwkPh171N9-bDlyHsqbaHbpN~kLsK_S$oL4{u|XsK@$ExM{-e}kvcuWyo9Zq~1O
z;W+5b9OkF9YjdrOiM8X>?4+4{%XVw`u(Y?kUFg@24zC|5)GIkszE->D%VR9+k#=*x
zQYfGfugT-!0|0_{8N=7c-JGY@Yez$Z@4eKnYusFUa&wS43$4=8_RcE1vEOOUE+5eR
zzaLghr@?+9^MBDcF=}tGC1XOXX%`R7z0e}FTw3VtqvJw<Tsi8Z{#RgvTnqhQG$A$K
z#3h83+7o3HOUfod=n2y&DcWb;1&GuRkA!!z%^K57DA>BR9Kfr1oT$JeP%Y>Q4mDx{
zWToQucuMqB%!Ls}+?xU@Px*>6f>fSkQA&>Hhs=G3#-@`U7y%wpS+tA^kX%8$Xbyux
zVS>9HN!|&!L5{#T@uD>4$$f}a353)bY8bu<Muv=57!|S?YBAKh63moJ4d00q#P@Ls
z74n82BGPo`gObEU{wl(Xfe8@v_<%&Pk$_*iCFnv*A%Svmxyp?pTXM1=#*wl(QY%uN
z9hte@pd+B5B3yMbQvSnN)x7m{V2^)wi-JGocwc>ss^GDq16}`+4$LZ$|L2hdRgbg-
zeU50y2=uPMPrFm4;dh6xDGe{qLeP7l$dJdiw$REt?m=50R$*~XSj-@xJ%fq?o(evk
zu1t78Dc0dJ#T`=9fQV<UWnb6>Vkl=-Sy-wfOkrlv=^%#*lT-ujM&*mM$UI<prfO8d
z9kH|EKbol_q@Wyx03o7sTUGW4x-7RU5%-|PgF$*Q8kUjgz(lxFl1oMbI_wK=DmguH
zunjqR5T_(iPJY6(QaO;+lfw=09}JJ963Xu5IB80!917dU!FeWQL;1+~b0OhS7~Vw&
z9C5RBG?5t;+_XS$jK`M}y)7L?#f+}*ey74yIJvUCa<h|jt*P$8@ygov)Nc8RDX_<<
z+~#I&dTwXJ-ap-G_X~&da_!{)q;PUgUvH^Wfqy+x0rg0!zytoGS=RnVsle#9@fi9W
z;~K!Am~jQ@sH;=%;)S9EY^9uap@6|GBv~NVPE|Rj_)D?Jp@_(k4~}`7)G}<(;#Pf7
z1)Qq#+$^Um#U61|#N}>f6>e}#!wSqM2?5Qy7#UP2$B;-b@=#{Iven`mVv4;aC#ot&
zMnKr2Gm0t;9W9*cs&M82(`6tt6C8m=&=gh1qvXtY#$~`Xa2r3rR^tSgOi*JMTQ&66
z`4*a!WS#|8sZcN<gYJaWpjiaPl%^DdXl{BrT?G_K8Kq7W3U^!bJb2^)-Z(Crk)Hq5
z?f+E0{V(`mx&8mW*#2#`o6|bR{Xe7aSC6jS{_WR|d4Q|iUxbTd`(LhO+}Ke~i5BYW
z)b_tzZ9n&qs*<zi7(QF0wqM2$2uH~rdTyFb9f0i*xkoJ9PYB2Z*?ymUsZtaNX|eqk
zwx5PECXWCsgx0^@e)7l)$lD3IH4%yg4I(4p3k9ff+=(u7M$-u5wj!tp6aef?XPFED
z6?Q47nQf>5aE~$&k)AmyNl}2ZRse3pT9E@zFe>O=D&3|s<b-A<6?-^F0^$+2OHsDW
z5|%+V9$^gyz`1ZE0*>cZqz+5F9?WRb{{2}`RfJb)MfmL76(QKzF0Z6#Cnp=u-a>V6
zp>=q1z7idjcc=H$rDkn7|E;*u_UJ|g!DC~N;IhZ@@<s%sQn&^V!y6Z9wDUVfoKTLS
zNRZC7Blvqd6ufjS6kG#$nsZTb9)_KzY-xISv$kta<Y(=p#q_MRI<<8W4u@&HLVK@9
zp}v(@j|H$xj&rQr>B&McEp+(<W8Ujp)}|PI^GdD0Z@Khd*T`J5t);kHuPxSFNp)%y
zKGWJhJeygF^LqDWYTGD0?vH4QHfpr5yiFO7wz*58FNxWaU|Q(m`}Il>FKB$Fi&XSS
z^-4bo(Uc}Bqx*6(I`M<}B8WCBH$+62@&Ua-YRo>2EujmaOr1Ong{zVChcc;CN;X7a
zQd9^RDd$m1mb?)TMz9Rdw#*1^+Hsg!CvXS5<`|(wOI$2p1Fk360N6`UpgPP*1jXDa
z!jrG^UJ180b8azyDd~|c@KJ)&;F0MI<pdN`OBV~d3uSTK1mB9QNaSt~%-zO^kpJRq
z=@leDqECPnjIj_nUP-EmEQrB{=Dda5%5lhx%v!Efs^Z{Oj*f-GJc2QiiE^8yHl#BF
zIWG5RrhCSwom^@qcy~x>xg_qcLORF&SQuWy*H&ZAId|5dYP+)Z#PBb>-FAEP=i5DI
z0<O$jhkNN!dv`wH!gWoRr}y$w)5^3)1;1C+&tE^RpGPm%daa`P?~dHKdZgU==w{wp
zrB?hgH$HkzsZ`;{->8gNzDbqOCvGpF*DjX0Me&Szx?!K4A76Bma(8v1l<XP@jkP?i
z4{u6YSnu~1)@$4wb2-<ZYx?LF>wQArKD@!%-7nDLXZ#GA_l?@+6xMrtg0&Lnt)!K0
z%@2+nbE~DL{i!VL=gWg;yxcvTtrpfBP|y2>n9T==pn2uJV?O8Fwf+P3hT)mY;rq4u
z4qsDiUDSe(^;*ZpTJud;Fq6_IWxumh^T*n#EThZPONJqE27>5Cw~0Vpha-`y3yeZN
z5D10l&16hu>df4stC8E3ND)t_*wTvwBqmpL7?CD+CtZJZ!<ALxjo0`Y*h>k3_(gqO
zI?W~FC*@(FE>=lq#czSq33Sx1g@+|{!upa`VVZm-d=oQH<;({1FiVb`u~lhA;Ek9m
zc1E5>r%I0PiP3`np(W%tzLtEX)b05?4k?4{1$;pWV4k=fik>hTgj=vXRSdq0w@d#H
zK{f!DArY_g#kgb&nv(WW-3M$^V1gVL8z#LFKO_02Ot_;yC11$bkwbFl4^l>GZSX%M
z?8xfil1V>AK5FFfH!O&F7S;|)smV%P1Q*ZR)29F-u4=k4Jks~hlCWw_Uk251LlFx0
z0TppcWhtjfzcuwPxFnw7z7eL7Y_Qkr_9r<FNaUd`4GRTGu1Ftb5~ZXKaO_UNksTHt
zxpBW9Tg~p)s_-#fp5;oT6w~c^niJic(f+Qhc}44=l2v~9Eg40$)hN$9bJiK3yFRfO
zW~YfeSuWe&=|NnX8VuRt;<km~Us$#4Yb#a0=<<ZeWxw6s=UuUCx3FVnAEVcleG~&j
zze!tlajV()Us}gCF}a%6vX!7)j_gj=$X5@{9eZcC)L$6XH;-3O=Z0C(OEr!dogx#F
z@hnQ_%lhu+DY7SiUOCtyqkVPQ|M0bO|M?YKW_|R{`?gD&g&qDb%?|%F*aA7tE;kzz
zy`*!OTnO5OUJs%S>_`-sV~b8NtITO=iy80IO{l^k_pgx_O&amAj2Z=W9%nVMD{b-&
zho_T|JE73E7BI}ZO7{gYGpjMWC!o22T(nGDqUnt)2kOB99=AX-1N2%_<_bqbXbPhT
z9y^t}80Z)@rVK97=(M%?fGWKSReIwss`QX|$I>?@58gNQwZq$isD1gjqqwFXU6-CT
z{!mow+FJnYxF)S<ilBJ0j%(j_)z@-e%F(_+94&kdjWpz#+)fN10i}Z{p(JI73^JpZ
ziVK4S!hl&F4pj(W50!wm!XimCt|EDWFj?*;PFOMdC2l$(<OaEpxGia%#jb%`bnMYy
z4YrC%V&!0g*gLL<#wr?h_+aTfqKg7Y4KYT$1toL%5-1JVXGeJ+AC@`-fM}tNXpck*
zr1KYNM*|1*JjGMPzRDaXgApZi{vI(IDgpz?SvcleOJ53(lNszxGJ(~updn}*UDk|u
z3OVQ=*GOiGIkZ3GVF@ElcHkcEl#U(o{&-;3Y2}dGLK9PYhOVahN!r<^?Sn7p)QBWW
zW$t4Dkptz$&3}kXBv~-ZG$zv?n{z0b+JhiB7;E4a-7QkW<E|04n)2~<q@;0;ThU4t
z51huRIL`fZoQR8NzB<>$^Kjf&CNz$O3D|1bn=(h1uqfOs6o4Q}7CE91hZP}{1OxgJ
zQ#NF_1in<dFC}ovw0NUvHTlQ`I{$Cb`G0+j&OhW06ASnG#=?Crj%Np#1;Mc!CVu=1
zyjXaAOyx(1JH}nnE40QJcYS@$r7OC|efBRl>)uM&U*75+p6pikDoeBT8^`B)eRpzy
zdFNs{4d7AjKHpTxJX=Vl%oHnq>RqqZEnr54nBn_1BpSY^WG-^Y&(|^+ch`OGtuh}y
z-2F85U1@^RsrvK-%B5?ce>qtGH$;5pTSoIQG-giUq2I6L)XUTlMbD`gI>@hff^jFT
z5stfVsVBmtNjhcgo0W-$LAY0+?(Vz!v>(lv4|^L)qsShMrG7)P)Nd-bTP?MUPm15a
zj8r39R!cp6zn1z6Wm_QqFVIV^$1ZqZd?~X;s*h-Y_^pC~sq>HpibI1b=Wq<vySNX`
zn;E*)ZtxT|_*)!Yzz^60KxhY%`=ddAz`Aq#5WmLTiF(Yak&%*=nD{-qD8VRkjum3Y
z3Vo?_7EFy((2;*=lq3j&{_tZqGmQiRf$H#{lssvL=h&5^{pCiLbS}#6-~f$Op+X3I
zvQ0U&5Cw!r_!S(L6vp6S0k&l-aSr#$qQg>1NCrGH#Fyj_e@cHS!)ADl-vr6xE%6yb
z<l*g2i(UolbR^M)URnth_XDZ~z;Ze!@R^Jw_o*xc`tW(6Ndc!)g8<k`CpiT@SZ4}l
zf*YAPh!f<7m)x#U0tcT#jg2z{WTV^*9A`#EC(6?@F5+{=9Nh*}YE<_f54feji(7iv
zEpBPHUya+VD>G-wTJ3nfQ|_gcr^{QrvwM4IbH}HL!#l+lv-W?y(7Q%~(v;r);>g6+
zqw6AZU3;mb81`%8qlnAnCjPD~Zs~(p_3k^g-hGS2VS2vk*kFPmNjrN+wT2^4grYK>
zEsaGGaWL;pxCT6-A>bqSsYVQ;ogRqJNJuI%+;A)7W<MO;mc)cxV9-h^B>)C$qEggY
zBX(EZJ=~m}>yf5b_<QMB%x#!uj(pL<NKY&K4Q<O-l^vR3*cGxc!Y-|e+|^6+2Q+~~
zt|Nh+ZRdm7G;$xJCb5`O7RTMCYEN(@EYq*XIRQU$T+$FUNe*IA%SbESfspPvffaC^
z%%I@>hwu`_a#9TR8YBU42sGiOj-(}F)f01Kon(4Bw@*Ye-Y=<+^cJ{G%i!8-bR=Ur
zOk&KaYY-<%;gAm{mX-l^6ka+^3DlAdT1?d>L6qCc)`V&SoB%pGG|VzVgHmml*_?9H
zL1f?-1(H?zbnbzRgusnM3ysERAcceur^<^er`%4BaoG^|(weM3Uq*A#<i`LUK^we-
zxz0?QrQ#-Sgk(L^jv&pScprHSZ^R|gLda^tx&mBchf+dnRm&nHa|=jZnXUz9=Ie1S
zJSoV!%9%Z&3ilzEc37Y?Q_&?;1K@FbjdLDU@IVLTs;rUBp(M$cEf(M>2bdv?>95x%
zy3Y3qlXJBg{k=Q|$MZgU<>orgLaVVkH(#%|%!}Gd=WM>eyB4Gy_R><tKHOT^7&a~!
z$NeGmbhE=o5pa|N{>sPz)uZbS@XLQ)r!>m(YvV;MWq>c%jmvXIxO#<#!cW{DuFlS@
zR&Vzpp3nOm%XY^)Z%-`ub{3Y%Kn|Sqh2eeF-d@lp|JP7%=SYW5CAUffRlvGT2Or>-
zoyWDS&;jfD1+o~&GrEc%@J))E`q?qLrN*E(Mxpp$l&FOk2~OvH8oUUH8idYFuzwgw
z_O%8=Ms*~bpvjnxg8K9=E7CxXX(3v1;$5^{kUdlJLa79)q9N`9Z!Q%**iHIVIX=ow
zxM&99U3hNJGzwBjk;P8%^8`XrJ%5qb6OYg?K&#{m4A-D4DdPic9LkdEF>>Cs#$U|A
zr`;N6Rnk7*O|69CI|k7cC8hDsRzxl_m_jxRk9YYWMV-A0!Y~wt5yc-IeF-OrzJe~&
zMf3qeThbC~8_;%ibj#*leOJFDf?EkGP14+)+;jhcF7ny~m#CG}Mle)DsbGV~eumFJ
zvdPX?WVH&V$s+}&5~c;F^F(GoCPzL)v=Q#TBxZ#K;=9xY;y~c~jN=~y2uM*i8L6WX
zFJP#l3615FC!$71Jb)BWPc?`R0-|*Wa(fVcd_Iz6OYVDm4fTiLfTqJJk#<ENo>eoL
z3pi>LE307j@6;8@%EH5@$Sve&CK=PlRdMVG*TyQi(7QUc-qN~?ZR@Kc#Qtt+u~!#=
zvzI+=n`Vvgz2({U%?8P{w7QSw%{TP5e3It>$7OLj#I6Xm&(n&6^{$IUs4bt4PXm6-
F-3QAr3*rC(

literal 0
HcmV?d00001

diff --git a/tests/python/data/compare_proteins/BGC0001850.pickle b/tests/python/data/compare_proteins/BGC0001850.pickle
new file mode 100644
index 0000000000000000000000000000000000000000..123e81af9afee09436a72506859920d8c883b5ba
GIT binary patch
literal 19983
zcmb`P32-!NdEfWmZ%?jWHr$^%)@+P+N4G?P-PZJ}KGc`G)v~?AXlA6D(Hznox@@X!
zT%qE!Do};&5FChIcCgDy>{L-svB4qW1S$|nT;;?B7bKLakcy2fp-d%Ug30gg?vX|+
zedAq-YWGvmOi$0#@AEwW=l}fQXY@07|KeTFZRyYHEBoC_quko5b!ty;mHV|PFCL$r
z-XEkdYP@*%{<9~3_Uv6}Z$5qLUavc-H9DnAx4l>HHTvDo*-vtAx!<p~w_1%_pVLn7
zU(t$%LScGozHoN>@{5aRAJXo&wi?~D(;HIursM4Lj=26qT(s61l)78ZT4iunzw`92
z7G_+%X#M`vyRB|z*uQvd{YCYMPH$}2%7bAKE8ctdW=^_S%^qJm?a|XahmGpl>CM^s
zT7SmdayB*(jFY9-hQHaAcHFh<UTJw{(>~fgJAI&bG^q7D<yJ|&;eLN}WqM(;F!$v2
z+38(_<GtG1>77M6I6J)$BZvLcpuBT-`l4XatL>@WeraZYd4?5upjzu!dX2q7gVj2H
zQ&=1LH@C~}M(g<IpjYmkzgBMD?A3OLt@5DT;{!UZ^qF&d?+(9v?Y>y&SF$_<JXY#v
z9%$7DwG!^@w#AtbwHy6@qq9@$4>*k{9=v#>yC+U)bn@Hj57H-oWOO||I;hu5?MAiQ
zs+GFir7|Aw3>rJU>!qWsI3;07qr<X~JzE@q_QCC5xn1km8{30gm9u_y(CwD`^=@xa
z8huoGYd9DPEAyB+F71?sarZYmBB;bI@#yaC9_(Lw_353pPW8-w@9R$Q>5Jv6o~?eL
zpW%DXw(74WEJfVl{737rIlVbJY45hys-+cg?xeV}y0q5VP`Z|O-1KIxWPK=~)n7OA
z;_?Dstp7;n!1^1mxNWv@R)5p!1F3uVx_xrvtp1};{mnmlR{xt${l}d8Tb%loQ-9K_
zKjqX5PJP;`&p7p2r#@%LZ>rDRpL(LcVBUVMjdQEhmBsDWep}se8}rj`J17+jt%U`3
z>98WLv^U0VoSvR!<3eiV%T!68+G=#FEa}ZWJD<0$zqW#{&#cxLZoQ<|>h4KRT9`_9
z-Qj$>CCkTC?ZV2|Mshe8m|NY=adSmt+;T}5=f#pf8u;!?u{etV7i#dc>lpki@g#$n
z3u|?$6?yyfD?MNBM00amW1uN}wY{WtvZ?eg3|?4XnqctKa=N}RDOYNP<5n68+qK>c
ziG-tjG4|K*pJZ(5=s;I@ruFIVx!L&0t!#$V?vl4vIa(-G>cLU{!q~;>*$KujFJ{3|
zt{k_fie2eu|F}a!4_=75-*7PZMeCEyo$JKyZEtFOv8@&QE3@Y2esOwhX}Y<xJ#)0W
z(%2m{w=ijKm*>)8crEp#0ys4K?XocS2aSr?&tmz<=Wm&Eg@XmF+CEsW)z-Cz#?HV@
zru^`z)^4o1Yf}wvdCctT!lYH6PtAT}cB)eDZFP^1rz(y9TljyfJp?YxgWAo?ai!Je
zw%RW&RGxV|ckq#wNo&8m-Y70Fc5G*MZ+S!WPC7?Mr7LeV6SY}s*4D<ctuXN>3Tdc3
z(HT}+wQ?^jL3<!Ht6!n=+?@GA-SEc`a}%8xPr3=;DQ_PfA6MqxP2G-mPShoJSMKTI
z{ziYfFkMi_JW*Jl=!x_u=Jx8fPWhzKsZI6wYL&)zqjIxM;8P|Vl+jw21|qUVY3X*L
z7B`LOjgB9i=YDQ~`z^!DEc)BchSfC}gT`h&-#QrXA2sJI*5b5PF6`;j#my`%Pr8|<
z<ut4wh7we}_2X)<+j=2+`;YI(%s+T|(z3@LbGRlCwWc*YSBxZYarYoJYQys8+DdJG
zvpr_%Vqs#<DP$n-Nb;NAC-j@uT52u~<b@b)yaa>4`LbKC>!H(MtnKa%<tbl2jJ6y5
z)>@&qGqb+nG`&52XKH+17bgVC(o$;e4}suQcVTIA@1&)jpK;{g`XHW*_PTLtz76I!
zc6x`Epy3?Pbu2jSIpru!GIn_`jp(Ol-ZDE?ZKTUOHFkV-yjAO*bVW@6V2l3!r$jK%
z-g42mcb!33+b;GzZ+j)!?FakSMXh--?^he1zGRfg?_*}dqAyRU_wkBAJ}0@|BjUPO
zs}3tKs2)A{2o@hdc1w#T$&K3U2bFkpknA2E`bPyNT9}(!TTutrlD<|Qvv_)blEq7@
z#g7rxuKw2jVWR_3z{Fpuy?+*C@27u!Qm{<Nhr{CVaCM`c$eYgc*4$#r@V9&6aB1Z*
zR!m6dMX*dP_tR-)zhbvG=%yuKD!La~XBf{P<38~iM*r5UCK=sPs;!Nw-PLM2+FgqW
zgMwaNE>;efW|o5HVY58WQ3?~+c_uY_hIO8**7jia0*-5YjjUEamBsZBMFduEayOrS
z{VhXgs7<Z6r>3^rB~>r(Pc@DU!|qaFZ*0vk`L*I<X?*=B_Xp{%{McT-+voqO8Ez;`
zS(3K~F{sz}1{onJx2i7;&iyC2hkyChE$?BjwJUe@=2p?F%`Sz$Ers@?x7Z(aDs?B>
z(#8R2dSaq3r1$Vc^$%}f#n!JmW6|@z(;ET;tGMxu2K>>qOCL4*_UM&VPpH4H{!-Dj
zHHX#pMzgRovv@L3ciVH7Eo&-v5>u6rOVw5R?DQd_P?RdIVV?$6G{T~>>Yv^{D1$6#
zPW@~3|3)KNe@*?q(;Gb3r5`>PpME18JxD(=RTyrhM4{F%(PZAkb!po<x;N{`(<i&V
zYOR+ZRj9++%X{_X*04Q#vRV^I5A}z8wcaj$SG6l%5=POr)Bm2;@5?N_k@q)36?t?0
zLqd^oGXZ5xk$6-6S6PY=pWe%5%8kxQySPVAA6}ezdQZLGPKAh@hBDLH8?J3^&+Hca
zp&1Pi9Y5NbUD%n@+J`$0)Pozf&OvFr*KMDfkDcBl9t^r?=3ilSZNG$7rG5oSKGUAr
zDb9)?&N(QzhPAWRFVI|{-e{CAJ$@jwt+drB_s_IUKDzC;(+BgX&oB12&-3$z(+5YN
za^?IR;tn#aZqIH<SoP<pH_ENXg|*^=c>cSmFRC47tPRbhae|`ocf`8B4^MyS^ah_X
ztaU22vyF#uzwI{Ll9eb7B`L8?-;gBPcg25}Bw4<0>58vMb`ZI$5?FGgTbi#JdSc3o
zZ$z?bM7rnunkE%BC3J#7O;pP=B}-GoNRND7^P||%G}H2BH*s{!ifl<S6ixDDE0QBk
z)l4n$RoAdAIdB!p3n(R8qy~|1MzZWnp&apE&2+uQj}lpS!@vq;RrVr7j}t!(Tsg2U
z%X4hC7+9_)%UT>omg(@m&<K4kRLqe7EmxK$DdMgY#f(+W2rb3*UE2-Zgb(2JY)MrV
zGtH3tdh<3`W~7n4sh$vLQS(loLmq41bMad9K8{cS`mky~z<K6l%?HJ=?=>Id7ZLPJ
z+v2Awys-LtqNn+y^P?AwGe+Ukd`Wix&;NaXKG=NerPp4@BlFJYBjVSeHy;(hUeSEH
z`1Rf9WBfYz{Ce{hJRJGlF~dmsT=tDXQe4;cEm@K;d~OM!%Z~85ui>+zjmsrm9!0vs
zQ<{a#4JVXRm-_)Om!r_qJzP#0DVm5WH_`RTviT%K)*?SPB-s!?4+39zEk3a*E0*U9
zpDU^#5)`uU2aytazN3Zs+`#9G8!46{tG*Z7@yO?{iqEYm^||8Ua|165pYySrruhDK
zKKE0fOZZ&39Y-<(HBjY1&V2q0SA70ne11B?=k3j%YPhvH93CBZw~pJhHMtpCJ9ER?
zje0K*s!L~?&mT{HZvXi0xznHhYU<U@>0do}dU}*P{poKCFXQIS>CXya`1}_#r=P!;
zI{o(4>Gtbx&%FM4>UDeb_RDVnh0N_`d~dsYAi0_m=t0OYR-IpwuQ-7hx)Mni2R@#P
zbX_+{7?tQyEXA=oC*%pu02snJkmMk+B-@tBZ^I|6q9BU75SOqNS8*jtQ6=Ax93`<N
z#UjjfSMya(Ql-#x`PfjlB1=(JB_W_fOS1?L&58mi;R;El$$ntVuBA%+_yh!pk?w|(
z>jt4lxTu=tN`aLqs(_`)=My~3N*s@*222#oB^<areh6YN>RUmPh$Ye`E0lf9Rb)5P
z0?YHQ#E=ci4mDy>N--}`C0BBM!{P*4buHUff+V!$P}BWLK$@nKFbdIX$-3ka>6YsH
zYN(mAmPOL>l}LIQk#sU4lD4XqLb%XM+;FyC_70lIbz{(6oZX#Oys71rqrE(m9?8(-
zr}98bD+Ym)qR02n11UYa4n5wMg3a~>^eAU>^k{}2hZkXV4dQL=tTmd3H?OSry!L^$
z(Krs0gM;o;;!lTD+d(0>`NfxQ*7DF!ZT>&!Hm66|*{uCcmMqsG-aQ%O?PfMVlG*%I
z7dDGpcbta)>3eL+aYIcp4asst*|j~w2ekJj)d`3KMKVm!Qf1eZh$Sm<HAnS0U$JA8
z2vi7K5i^kqCi=ROghXg4S+-G>6Tnb&HJ1vd+rW!P9hHG1>JBj-`$b~Taa}D8eJKl$
zvn#>z0fOTfCj>_;>TJndCp-GK-Hq+i+(J0LxjnVN+TEBo8f|GdU+6osh5mbaa9HCD
z{jKwbPLDE_c`iRALm4X(5A)LU^mF0?k5ZJmBU|YAXA6C2w$SgtywGRaLjQ>!nLxdv
z>VY3<j-mRNM9PUD#gwQbt_eGcM1tal$dXM(N<aujmO@`P+z5P-!3Ne)GHe5Miu5$s
zUC*!_75E7>PBL5wh2-FyFj6Hv2*601=ShH+Wa&<174=wS=_A+C0?G+b2a4`!)FUk{
z1_sqfa%BhK$&O)4hLV6BzD3=ULMibK&GNj^41hv4l5JVFY||viaerPbe&>o4KZ+Co
z*#sxLrM0$FT<w*sQloviu4%QCm8I&+OvMg|ve{Y4op^8N#LwhT-1?(5WwQ+b&*x4|
zk1{7_wdA(ERBU}Vb6c7%Pmf+3D;4HPGbi4gIq_d#IPsbcpRUzwmFk)?+uzn#r<*O)
z*j$bLf*VdP?jP?2L2mP%nawA;&2k<(X@-C2+~)M?x(t`CvGSHCJO5k?ykTbZU75}8
zi8gP~41Loxy!NWQJ2%@4*ACYX<ki)={#JXg85#0ro4=CVEPYfE`Ppopzk6=;{}o5q
zCCk&}HeZ`8|LT&>e=yPJQggZ2(PlQMW@P<v&#0*3QO{YOmD`=Vv*Ve^xy=t}>->S-
z=BLH7jnF@}H06#LHlMF$mf)9cK7TEZjp;1Ge>SuE$!wjEE^HP^`a4;I|EX<SkwGPQ
zGys+C4gpbWyru_HC`F-9;~-Hp15I=fQKSKewk#=>dAOsb>9Q0V0r(lYNoYds!YBy@
zXgX13O12jWLO~)HqaZM}$Vos3S5qVvC^1DoN8pF8`L0DP05`A|#fW?<kS#e5Bf}RA
zM3q6?Fa(;TzzpG;TC9eFZ_?2~Z(%!HB<sF|Z4n7?grSEuL85w*8i7ZaPQMbEc_Z+t
zD~bMT68-llBzmz>83g)LeY(HBv+hb^yIG%K-Sb_i?Re9Nb~|_Gw^C=?_J|ZFkB?>g
ze?O1F^ys<>+{nG3WqO+SBe>2;p_ydf{8s8s+ZyA9*QB~C*-me3ur_OMAM|U(g_-y`
zj`tR~WplnIOH1|K>ie%)-GAd)4F2Z1)#=f7x!%8-2HtfH<gSd$N;#E%@Ohc-FAeSH
z+<tO6zp+q1nc5gm&llvxT-EBk`_rx6?cD5smN}oyGiUuTM6&1E{%7Y_f8$o!9)3OZ
zO}5t0<@h#^s!q1n{Va1naXE87mC<iU&~GCwk{CMOuNGNas09g;=SPO)n6eG0CNBa7
zHe&f^NFvb1#FFXqOh|;2KM+~+ij)(yo2Ov31|<tJPxI^%Zc;IdBsjY!Y4lHU9653V
znk3qBRib=Jif@ZFa3!cKnM{6?fN<RaUPR9nMwY6{yqnyx;5C}B^M(MbD+MYS^l8M%
z7I<~w+kBn^HzJ`-Jy8SO(YUQpQ6nYvB2F^MTRzO8d(dUYkaRV2br0z9ElUZY+=vN=
zi`)&2(6;%B=7cN{eJ9PitXmS*KD}wtEkMmxKGqIw%?d5cmvXNC+A9hAI0<@lLV|8k
z4l482;#Q|J*l0V3qLgQ+^zzccHVQ}ky|p}M+F8teCyyEXBV+k_9i2Ky)C_IyM1;w;
zoqA5E-j~HpCySYHU&PEc>1pm%wzRG4Zl_UQT^?>Y*5<+1c2BJ@mdxpXW5LXAp3iKq
z<TfjhkJ<cuD)A?8nVmVNyd|@FKC}6q7dDFu@!G6Hd=C~ZxsWHKS0bJbK-l$zfXL+^
z`ZQWa=rQr;`VO*#B~CO#MUo)rw3~`%E4~%lNKXW-MPEp8SV^oKa%j@v8zh1OJ5(tu
zE`1zKTnl1Pp@8uIKr8wZauBFbn+n_KqkNZA;yS7o#+HI=0LPRFA63zOFY+X*7)P{@
zdgN(AC<PvA=*I!F5veA5if8$@=g9%h8N4)6667*jie<%7MgEzILG#K*J(ROR&nW)q
zuEgZOCno>hgqVC`tmQEG@A5~-aO|(naV$N$4t<x#YsPuJj#K<f=HHxY)i3;eO-#Np
zM*Hd9=AZaZmKP~I{F8H=)1%bpXYLj!kU3c%{lwR^7*4VG{IzlH{oTywoYDUNM4Mk2
zqx}!L%}cpOsm&MbjPW@;JYUPq=Ec<HYy0dx_j{Mtxp`r;$fM6?dGtlWv?7=m$S#l)
zdS#0?O4ET#31JhigF2xmGN9`L`jTwHwBT2A9NBTsv;@Mtlo+25G|~f@PU0AXX(91w
z<VMQ0=$(-MB6K$2mweH?k~tRijttN}Ir5=dK@@pPz<Dugz}0xCXz?Ow7Ghthv!&?6
z=8%ubPf=QYik9TdXut{_Pl$4ezZ9@6L*9BNL*7A#{H+NYvb0<^wBn%>%*{9Tb$xj`
zk%qy#*OL~i?Ulw+HAlePGX(s0?zwkX#xmr;oJU)FlttSkc}`@Wd#9E0nJn5yucgs;
zZ^n`TN9MUZG6ekcWzW4etMo^y(8fY|zG-Tal0?2n!J{DhW?=Y^fpP`K6w<aASh}tn
zff9r<E9*wSVAFnLMKqhJo)S_vQXRyW?%9K5LtTBJGD;jER5%hnFVDq558_l1xHw<4
zbPFLPHc-!jGCUF(&;v=KETf#`Q`0I&l+;j(C7X|QDfP01km^9FVb6fBkKHcr@*~-$
z97DVv*+n_yLuj@GD!&GE=2GCK?{STokf8btUP6$hO+RXh>niBPL=@H$P4wn;*1~iE
zRdPKmwh;3}S%<j<1e~Q(*kzv;lM|Iz+~j@@1s<>Y$h2Cl`??Kwr`>*pl+XPNt=S1(
zL90TA7|){X53fYm7m2R_I3c=>#S`C(OUlCV=wLl4nCs@ez8>gni`HCYkmyMsUB8+}
zm+g#5`_YHT3hduK53euX3K+JcF)%v^jWoP&Wa0JeS$O?M8eVpBGHHK)Rts~*ri1;u
zJMyf!h1nm!mD!zN%d#lVipyqyEo1G!ow0V?zdbYjRd-xYj6cj0;|+IU2GmoRiEes0
zO0y5pNW_k$=rB=VP)`bfXch&PEf#&(4N<7ms;;@TmJ+^BnS}=W5pY^0>D2O~h&?VA
z!U#wS0+M5*P3Clh+LiTC(L8irga61A%Xf8Qg0J~N7b26Z#7c;|<IrHTLjh%x2vRyn
z1&N9<B+PsiW{HSn+Y0p<L7cD_+YK2j*TF|glZz6<vg8%{I6aa?))LWdI%$e!vgM?U
zWW!$enlJ~w-RG0Y!-&^~Xr1^P!(H^&2#SIkVL7V=<0vMiF?>qw$caRtDHa4<cHJlr
z1D&oFyAv=5;AJxl8qJN+7wECe_M41W?Lku{Y~m*1)ZC|3G$TI9hVv*qX%%5x*zS`?
zX{OR#YpCjCfk|Yc$q7u?bfopzDk9(M&~-`?(kI;tm?g)w;!5PRQ4?S(=#O_0-E~XB
ziEP+O3T_2ZQ1?i4ElkLME(AXCsv!DNAjP8`{>YUa{w;F&Hzwq8!!{ZR)3b3qZ1o0a
zSejdJtxnJMD#`lNq8HVt@*KV^s}LiFt^U8qQuyDVr|@UbbK#lWFY%H3|4I`e>tN4c
z8|NdRyj0u&zbI_?WH$drp1<!H=OY)&&xP*)bY|p86@1&zjM;qt+BG)clU22UbCJB)
z@V@4-Vl5vn&1}ytCjDJz=vTJYWYH<=GYjj6Tv^H2Ig<*`cRK6u8C&Piov(9xlvUza
zq#!e!^S=5|k5}T+YvVTmX|~SyXEuLtqRr~j76IBhncX-p%x}+|{VF}QTsRt5+m%^q
z*vf6r*ZKSTIuE~<*^u(S51!ln%NMb6M|xA+xy{3L-!AX@o*BJ1Zu4JeHs|a7{fRa&
z?&*ci(A%7vZm!k|?c#8u6uLcmYTj8JZmo}MQXbF0ncHj&lSiuHb$#kH_g}Kv9*>Rl
z*HWAF9pzuXWb=nFY!+PgBN?!Zy>c5B0CX`#2d`<+P7)e)XD1etC~{l&VW+?${M9o-
z2ewB7&QJkz-sHniggPgOk>Yts4;HF>1S3Hx0rHfzEXbZ5vs0i-ybv-ZfWQYPMvia8
zmjrD!#770<U7%0sL6{RbirB*mZI!A*!v?Q_j2M2A&0|nB2&oY$9DyDCGMhm{12F(-
zL>J}_kS8p$)xea1EGTw_ppkJX9f?ARyhJjy5A0y(ymsdbYVCqr^$DnD9MZ1JZr#&5
zrBZjP!7$3|N=MtBu{!QlT;I$i^T`YW{y6vYv!5Burt7wl(}d@rJTjksPC&*aHR883
zFF%!K)0ZxLc_-^gzJg+7BA24B!v9z&R>w6IH=%Oj$#hSL9okrsM*N9n6X~+;Aq`m+
zOSXkkim0K!BVM8+73nfG2&j~V5~Y@PKqwYe*_72-R3;CVfN2!P2-zY+Q_y@l7H*9F
zB#>094CkU}`I4^tGL?#fgealL5i(RY!buGr*-%0PDfOMqzO6VHjx7@xez7Qau0zR$
z%jTPN@4n){_u#*uo8Z5>%E4fx<X2Urpw@?h-<fg!Mt|CMs&ajOXKI-F&;H$<gYAwu
zn4jleiY@>199z<(>w0%T`RhFRFH#TM|2(H)J7W~=Iuwuh^^LiBYh|?(s>Ow7dw*rv
z-Li{XtAE&AIvlBBM;Uee=@H|t<Ww*<`;X4ePLHlLyCSTf6nOS+x!`-8F-Jb>(#XoY
zGk|Fe<|s5!I9r4_J=b;7Gc9@^_#Lt!)P?71O7t*Bs6ih>`%whdfGDCqLc!>%5(FRA
zCXKlQW{coRqUrGHVLf1nb5WG&fapLFr{HajEWlf2B_vovL2V3$VAO1l@g+y4|M3H8
znGe58n0^V+R|!goS)`CoSxVxNK29fH{7^;3V!DY*Du$Odz$vmF*PwYy{Dk&g6I+Xr
zFd&b3H<b_tHxb*T3bfI-X~T*NI3xB`7*;YBo}tMOnXX`xiX~vS3d2Y*`X}-vLJ@OO
zSfwJ;vf?L<WWbM;gm#^jGe{$PFcO%FE2L(_C%p^~Sw!wm=xt)kfjKO+XtDY2O8_XT
z#(S{>uIBT_DV@HMHwul;fjA>Y#KLxVY+cs}A3zA6M#12-<WNPtK+#1@W1$eTSxuk0
zo*)4MWSw3#6`NgVFt81ZNhN_5Vh6(^kY{K!D-#vfK=;UU)M(VZl<Bg;>#@Mxy^L@T
z2*K6W#Gyn`TKHr$Qi|;NAbu#+3b2G-{Rnx&*Ib>Q<H%EWiT7Bc*cCzs2WTvf%8>Pu
zdson402=I1K!c-WPwDRN`HM-fw5m0g<Hpo#cV}ruQ{+AUc&VJD0YRR2WS<$OmHtc$
z*xCN$byE@NdyJV*F*^U69f`bZ+Zh_XD@Ox9={&8jL4$pH(5;-DsC#a=qSNaaXX<Y4
zc*8BMFIBp;t5#lx^6j79k=X}FV`hKg91YT=jMOcrCydI_==@Ax8NHU0jjaC_4P-jM
z_L2+@_@qf@FV(jy3yWp1E}z5)&7;NM?uH$fw3QWA+pjK_MrLPYGxl3YX20|1nAsPq
z(0>&-a2<%1zMfUvYgYSJS^v9`n|(7gdwI-k!IJhe5c|AfNe&T>d`&tb*3b!}`H*B$
z5!Eb4MJ7u?A)x_D9w|WFqM-<2LhutIjW{E-_mS=e5zL~G6N6K{100MHd#IS4&QuCQ
zO&B2Fsp#We))4J6+bsYg%@>n-kS&2CG~T{oK%$_F*$D~k3mLf(DIZhQ#lR%_Cz6qt
zl@^r*77UM*HHN!@UsNH6MP(@wGcuHFgn6<|boG(t##|6Mu!SlpZVMpLFoQuHhCfli
zcu^6s&148j4NB3R!?twO7o9l7ihE*bz+)NE*V*~;iU^MilZfCIjj*J|f>J0&rZ;$k
z@(#9oLSq8gA#tz+#i6wZ5kXJDimPy4p+9gk4LYE!&{>-po$gr!g>0TN@`X}`E8rcn
z=usmrNr^3eFbW!PW~nobC|<z`4UCW{V8ndS^Be1Hb4S5OJlt#+yJ6vQwYodsY8@>M
z5BC@IT)Qu0e4ol0U*+*J#`neZR7;Q2n7x7!Ti?j~fGlRel$YT&)p8B`gIT8K{nIBe
z5=}&GF^kxr7iBjs3{)V4%0QuF?32+w-zuVMPyqaZ8VsJJe;^(}sKwS{><ejA2qqyC
zfmHMi=5#`qlbuGUr6ME-S4{84h}#5;iu$2x)C1ufm_Eu1f+ZU+bO(v%iSgVb!=LPQ
zqI)Php9Y2tVKYJ!m&0_3QFGC@i2?TheM4999W@0<p@oK?#a@#qtQDVT=m<>gyE5Yk
zyQIP}?}x6zECPX~QJx%Cm33P}jf8QcFr|tpv5h)IsYV|WH_reojSb_is2qx;n9Me^
zSIXyb&#poXA!-cdK#ZbthcpdLNRov@hJ~dvh9n9qTp0DmRYf@@g9FS&))z5Jiy|a0
zA6b}>CYg#TsN|MtlvH1fVZNlFj}E0!o;4?eM2MsnJje$k9E2EAeRW7O#XiuvCI@i>
zvvKHR#FiMzj6W0`uEbWYW~6z7i0T<oc=o?sNk#n$NJ9JtS_P6WP84zw8BeFg*M3+t
zbbX645X3rNxL1aSqewA?D+)bV5iCU37z=iFx-?ZvST`6_q{pa7^moXA5%bp|irBsY
zs0ag;YN5d44*bd0qbM)QU%rxVUnSkXG9lf1CzZ0f*0ENr-Ti}IwWY4iFP4VKNqM)>
zUfnra&C@L(VtQMiZVPF)<%8K|TRxbb9%Ys7u{@=+f;?}HrQ0)?<cd7qUZ15~zP0wo
zi*&oD9NVk$a2UnMfz~`WR#)8G^tRbWnp|sGv#p)NNp5p4S3EhgIkza~=GWSM<5D$V
z$j{HJ@#wX2x#G2%&AD9hhKV-!=jRT(hfCTCY1cojYmF&mxYP=b<=M?bZ>!_xHfK|c
z7sJp&ZqhCLpl4p4yCPd?KUaw|qeri$M&F&)V&<$<3UPN<i<2w0_{$lxor+qF!bx1w
zJ+K=i$`gAER7t9xzz))u0cFa8*wmn+FiA*tq&WZ~G|(k2!fZ+_map1q84yd<RklW`
zHCloip=yrH2$HD8uz7F+Oe%_vZ^jM9_yYJ9a-t`T@kQn?=r;t#XAqeYDYpGILx-Mo
zA^IB8t1#q@f(!_;9pth{&J-or5#4kc$D()^nXk|jiJQ?t69<!-d}QX4y>-#>0J~5M
zh&DA%R4|%ujN(YqV>5___Cg=QKQWW5*Z~nnZ`Tn=xTxgu4G;Qe#<2vhLSIDxB!}!Q
z`Kn?jOhH4!MLj^|7DPpijKn%c9c(qhIR%Y{1_?~FbT$R082K2wF7`Kta-Y@GXRjpp
z7Rg<jklfqG;m%^Sanj#i=mvvB+%s?O8q1Br@E{58`Q1F|UXs!6e>x(7)o}v&pU$&8
zJ-UtnR$rbK-!$m5fE|q}<`ek;=rV8pCs%^**(~TD5apEikdD#uk)WV=mMX>!#FrtM
zfU_7Spc#TH0k2~BmD-sS5ZWt3iv?xxju|&fiij&Sps`|T7AF?@Dg##)P8P%xuxBhn
zyqUs65#b5Z<g)QcH_Pa=LQSL6()X}Opy4ngUJT(<UU)+UCk@%+qsN1*hPpTfwT;nT
zNwl++XX1!jNcccY*$yB^+2fULx?3U;J7Iae#Fid8;~FAhWVS`b)+1dSF~}`YY=|u<
zpt$q(O-^7WkA9q0FfBC*xG~9~TtF-cQnB~Jjqoi1C@72|fHTtOl7lL}pBUvOiu_`P
znxu*y4XUD$21T>#GEe2WT4GQS1D-&?N`#z9TTFcsQ5?r?bck;vu@@tThAC(CiENNE
zWvoJ?$rd_T>}K`w1}cETD}rc<<&KJCDus5N_ee3)5(JkOhL^aJ7t_|u>_~--u$Ts4
zumMNJE)rFba+t-ubtUFqV&0w*^KNykxTr5EM|=@ubE@S;hk;Qj7B%y5&sS##qe<ew
zk@3e*<i(-*(G)nd4)ZV1Lq0vq3fdcUWX*84n272y(y~Xdr8t{+n5P-c=HE2>y^G=?
z_@k8u{OKogMMz*dswoF1Je>b%JuF5o*^dsH4PY~uFP|kux>zU_JtYRTia@9rLzEB_
z*x!~S7?0wh0+0tl2YXv=6-qHPo<su8kJz#bRA%K2_P&IM%cw#Wvu8}?5Lp_GmAF)6
zHnd<KWF9~&$*9A+VtT%+2JF4#UY^4@BINiw02$%u+sPlh;-cTfMbAxekzLv@u7yVj
z2PM6=<h7RS`zOb1?p|?swjHk2;`JPs{y_#yuNlFTD>%eRyZ`37kJ6*-IKKNUDHdgW
zQRn=BoZ}y5KKf8r3LhRrrE6Hnw5F{1UO8Sa*8^{+VnOw`_mAe5{G{ADnAw(ct3RGu
z&7fxX9X36u5orZ~KH5bFpx0TQPno?tv-;zi)$f>Wb#1}5j~%DE60OY6SK?iHDmiNO
zm&2px`b>4t@p7wQm8HX8ZnT;QdusHz&zJhvL+ay3XUC%okn=k^Gy2u3(dM(4)8S(o
z{_BEtz|jFCu%BQiUa9SZPSYnafJvANr4me~`vu&AEW(`rISQHdffc~)g_b3f0?NS*
zn>YxgxaiQ9GsXjB23*(yhq6=21?>PE>2+wnc#}n$0ic+y1J3v!lb|8g67&Pn(lZea
z6A@@F`XOMNxgLJQ0+gf(>a!b6p<&*K{ck`GO(3mQ>_VgTbA2s#xEHR#V~LFA`=KdS
zp#Kq40FZ4VUb24!$5AN{I;fb|H&|D|CJygHw7@1&jl^&t)?f+M2{Hz2;fin}(HkOM
zrr<d|eHnjjYsg<c6MyQg#Gm5YZnXH*Vh>chtrmX;jlUY!KRdm*C{C&M_&%`sLuvQ*
zhg<xyF!2|~OukBcad?;buJoDtNc|t0kMO<PApaJzdDrQE{Hd~1yE|xXpP6?K|MnTs
Iz4he(133;)Gynhq

literal 0
HcmV?d00001

diff --git a/tests/python/data/compare_proteins/test_CompareDomains.csv b/tests/python/data/compare_proteins/test_CompareDomains.csv
new file mode 100644
index 00000000..451e0b0e
--- /dev/null
+++ b/tests/python/data/compare_proteins/test_CompareDomains.csv
@@ -0,0 +1,33 @@
+query,target,query_n_domains,target_n_domains,jaccard,mod_score
+qEcFCOXPHpf_D6FiGPea8DkV_AWWZjMy,uG-Um--bm_FHCq-iy0uo8sHib58ReCw_,2,2,1.0,1.5
+0suO2ImDjlLb-G5pYR1evP6CDaM4Kmma,4lkDnHjbCLe38TRMATM7Q7stnchNYbGt,2,3,0.67,1.0
+_0OhI8CwFqgCa97qVet-jbUA7WN2Q3XF,fkNtoGfCrQQfBSksSqd7Gjv5RdiQH8Ia,4,4,0.14,0.32
+_0OhI8CwFqgCa97qVet-jbUA7WN2Q3XF,nEdlX-kJdaVkOWtt0Hd9Ccv828Sjwjah,4,3,0.17,0.08
+_0OhI8CwFqgCa97qVet-jbUA7WN2Q3XF,52NDrUtW4VpoW_5metaigrwcSiNy4nLt,4,5,0.8,0.8
+UpM8jOJT2xvzuU9Nbq6foihOdCQg0JR0,4nWmfQ-f7mG0sB3KZqC1b81jBf2xJBik,1,1,1.0,1.5
+KbJwxUWA9hBamAnz7boyic9xuL7YpdFp,fkNtoGfCrQQfBSksSqd7Gjv5RdiQH8Ia,5,4,0.12,0.06
+KbJwxUWA9hBamAnz7boyic9xuL7YpdFp,nEdlX-kJdaVkOWtt0Hd9Ccv828Sjwjah,5,3,0.14,0.27
+KbJwxUWA9hBamAnz7boyic9xuL7YpdFp,52NDrUtW4VpoW_5metaigrwcSiNy4nLt,5,5,1.0,1.5
+abYaRpVeBw6U9ZaXiEMND4z-J7_bnwBW,4lkDnHjbCLe38TRMATM7Q7stnchNYbGt,3,3,0.5,0.92
+oS3H0Kb3lOQz6-wnh14vTmcPhT2_FDT_,_xvHFg1H1f43WxPcZT1P8Qbcx60chSxh,1,1,1.0,1.5
+0yVaZrn7OtVTYy5bfiHLRUYCRvmhh5QF,KCRfjiLoK7SiZW5lvuqxj5cL71La0pHA,1,1,1.0,1.5
+HiEbAmsTAFh_WLCbMsjHa7rYMmA3aAVn,RNafvyyc5PZHMVgzF8FkDrHTqXs9010E,2,2,1.0,1.5
+_bM-9OJARu4IC1V8jchTXDIaTPuLUhCe,kUiC97nMN3p9XGQznxIcoDXjYFjcjeOD,2,2,1.0,1.5
+etULepIwK3A8cTlCpg7R-CAWJISYYy0t,WnKuODuGjL34CVAQ7kvTIeuaZOBeUZmA,1,1,1.0,1.5
+D8hihmbo9jMJDf3zV2YsgAKSTgxHwc05,35es2QbNXZvIz8lXRZjAgPOdp_9BZMxk,2,2,1.0,1.5
+uNrCjGQbe9LsL9umHQWqvG2OQykvFxFw,fkNtoGfCrQQfBSksSqd7Gjv5RdiQH8Ia,3,4,0.75,0.88
+uNrCjGQbe9LsL9umHQWqvG2OQykvFxFw,nEdlX-kJdaVkOWtt0Hd9Ccv828Sjwjah,3,3,1.0,0.83
+uNrCjGQbe9LsL9umHQWqvG2OQykvFxFw,52NDrUtW4VpoW_5metaigrwcSiNy4nLt,3,5,0.14,0.27
+M-VPo39ep4Utq6_Fru4JuNM9rp3Wmu45,tzmklOd_BQ4zCXJ8OiXEoLGyjQ3LYUuD,1,1,1.0,1.5
+uYr-bewprIg6Swc5EWnzKCpQiTuVowir,1WwuCuwJXaYDZN9b47_IRfrTu8BwWEKe,2,3,0.67,1.0
+TT9-VE-A9iUNQx8UtgoRlcKHXw521wxV,KCRfjiLoK7SiZW5lvuqxj5cL71La0pHA,1,1,1.0,1.5
+ennTHgEojAJicxoKyyb-1MWJz5q0YNGv,wNs7ekpuD-RDwVfiqLO0eg2U6NjQpHg-,1,1,1.0,1.5
+ennTHgEojAJicxoKyyb-1MWJz5q0YNGv,90OhAlVQq5BrRFnV44GitGEpepY_zZEr,1,1,1.0,1.5
+BIkruFDUoKjckgk0j6oZUrBk_oAj16YG,wNs7ekpuD-RDwVfiqLO0eg2U6NjQpHg-,1,1,1.0,1.5
+BIkruFDUoKjckgk0j6oZUrBk_oAj16YG,90OhAlVQq5BrRFnV44GitGEpepY_zZEr,1,1,1.0,1.5
+IU-V8ZvWVd1C1Z-evwLfP_KkJT7mZCvA,AAPVmUvcWZtYkxwRx0EV64-OBFtL8HOd,3,3,1.0,1.5
+orV-86yt1TbEwWGDAkU3bVNpe459Hl1B,LJkzeA6-YkPu5alDDy-m0BbXYw4SKboZ,2,1,0.5,0.75
+4EeqbFY1V20e1Z8RNjccxJsJaspnPGB1,_xvHFg1H1f43WxPcZT1P8Qbcx60chSxh,1,1,1.0,1.5
+U3Cgn6zYdFSQVEZFTRUnAo1zaJfp9-Q4,4lkDnHjbCLe38TRMATM7Q7stnchNYbGt,4,3,0.75,1.12
+lsxvnXk8kxp2OelIap6TcoguSBVOEMnk,4J1c7flqmFXPi51mMS_00l66F8wcABmX,1,1,1.0,1.5
+M-XQN-LZbGTFgj0rp2dFnIsF9bQm9chC,0v6Ldmv9eeUG6igtKY-RTxemiOPO-iG9,2,3,0.67,1.0
diff --git a/tests/python/data/compare_proteins/test_DiamondBlastp.csv b/tests/python/data/compare_proteins/test_DiamondBlastp.csv
new file mode 100644
index 00000000..77a98103
--- /dev/null
+++ b/tests/python/data/compare_proteins/test_DiamondBlastp.csv
@@ -0,0 +1,27 @@
+query,target,pident,length,mismatch,gapopen,qstart,qend,sstart,send,evalue,bitscore,qlen,slen
+qEcFCOXPHpf_D6FiGPea8DkV_AWWZjMy,uG-Um--bm_FHCq-iy0uo8sHib58ReCw_,47.8,381,194,4,2,381,169,545,3.32e-115,338.0,405,547
+0suO2ImDjlLb-G5pYR1evP6CDaM4Kmma,4lkDnHjbCLe38TRMATM7Q7stnchNYbGt,27.0,367,233,12,7,362,5,347,1.77e-17,74.3,532,396
+_0OhI8CwFqgCa97qVet-jbUA7WN2Q3XF,52NDrUtW4VpoW_5metaigrwcSiNy4nLt,25.9,251,157,10,8,232,7,254,1.59e-07,40.8,233,256
+UpM8jOJT2xvzuU9Nbq6foihOdCQg0JR0,4nWmfQ-f7mG0sB3KZqC1b81jBf2xJBik,55.9,204,86,2,5,207,20,220,2.03e-70,206.0,224,221
+KbJwxUWA9hBamAnz7boyic9xuL7YpdFp,52NDrUtW4VpoW_5metaigrwcSiNy4nLt,62.2,254,96,0,6,259,1,254,8.79e-102,288.0,261,256
+abYaRpVeBw6U9ZaXiEMND4z-J7_bnwBW,4lkDnHjbCLe38TRMATM7Q7stnchNYbGt,39.6,389,209,10,3,376,8,385,7.93e-68,211.0,389,396
+HiEbAmsTAFh_WLCbMsjHa7rYMmA3aAVn,RNafvyyc5PZHMVgzF8FkDrHTqXs9010E,57.5,623,242,6,18,635,17,621,3.13e-236,659.0,654,621
+Ft0znrFotJAJw4O3UQcsSde2fg7joffB,0v6Ldmv9eeUG6igtKY-RTxemiOPO-iG9,25.0,244,159,9,42,277,36,263,0.00014,33.1,360,460
+_bM-9OJARu4IC1V8jchTXDIaTPuLUhCe,kUiC97nMN3p9XGQznxIcoDXjYFjcjeOD,51.5,130,62,1,1,129,1,130,3.96e-46,137.0,138,134
+etULepIwK3A8cTlCpg7R-CAWJISYYy0t,WnKuODuGjL34CVAQ7kvTIeuaZOBeUZmA,74.1,220,57,0,1,220,1,220,3.43e-115,319.0,222,226
+D8hihmbo9jMJDf3zV2YsgAKSTgxHwc05,35es2QbNXZvIz8lXRZjAgPOdp_9BZMxk,59.2,218,86,2,5,219,31,248,2.02e-90,258.0,225,253
+uNrCjGQbe9LsL9umHQWqvG2OQykvFxFw,fkNtoGfCrQQfBSksSqd7Gjv5RdiQH8Ia,65.2,230,80,0,1,230,1,230,2.36e-110,308.0,231,234
+uNrCjGQbe9LsL9umHQWqvG2OQykvFxFw,nEdlX-kJdaVkOWtt0Hd9Ccv828Sjwjah,48.8,211,105,1,1,211,1,208,1.66e-59,178.0,231,215
+M-VPo39ep4Utq6_Fru4JuNM9rp3Wmu45,tzmklOd_BQ4zCXJ8OiXEoLGyjQ3LYUuD,43.8,361,177,8,18,354,1,359,5.13e-83,248.0,364,376
+uYr-bewprIg6Swc5EWnzKCpQiTuVowir,1WwuCuwJXaYDZN9b47_IRfrTu8BwWEKe,64.8,321,113,0,1,321,13,333,8.58e-146,405.0,322,334
+TT9-VE-A9iUNQx8UtgoRlcKHXw521wxV,KCRfjiLoK7SiZW5lvuqxj5cL71La0pHA,61.6,271,102,2,1,269,78,348,2.11e-116,329.0,274,353
+ennTHgEojAJicxoKyyb-1MWJz5q0YNGv,90OhAlVQq5BrRFnV44GitGEpepY_zZEr,54.1,270,123,1,1,269,1,270,3.7399999999999998e-106,300.0,269,270
+ennTHgEojAJicxoKyyb-1MWJz5q0YNGv,wNs7ekpuD-RDwVfiqLO0eg2U6NjQpHg-,51.9,268,128,1,1,267,1,268,3.5099999999999996e-104,295.0,269,270
+BIkruFDUoKjckgk0j6oZUrBk_oAj16YG,wNs7ekpuD-RDwVfiqLO0eg2U6NjQpHg-,56.9,269,113,2,1,268,1,267,4.6e-112,315.0,279,270
+BIkruFDUoKjckgk0j6oZUrBk_oAj16YG,90OhAlVQq5BrRFnV44GitGEpepY_zZEr,53.9,269,121,2,1,268,1,267,3.59e-104,295.0,279,270
+IU-V8ZvWVd1C1Z-evwLfP_KkJT7mZCvA,AAPVmUvcWZtYkxwRx0EV64-OBFtL8HOd,58.5,325,134,1,4,327,1,325,6.6e-122,345.0,350,328
+orV-86yt1TbEwWGDAkU3bVNpe459Hl1B,LJkzeA6-YkPu5alDDy-m0BbXYw4SKboZ,57.9,171,72,0,7,177,20,190,2.43e-68,197.0,180,192
+4EeqbFY1V20e1Z8RNjccxJsJaspnPGB1,_xvHFg1H1f43WxPcZT1P8Qbcx60chSxh,68.6,516,161,1,1,515,1,516,2.22e-258,706.0,523,523
+U3Cgn6zYdFSQVEZFTRUnAo1zaJfp9-Q4,4lkDnHjbCLe38TRMATM7Q7stnchNYbGt,61.1,388,150,1,8,394,3,390,4.2200000000000005e-160,447.0,402,396
+lsxvnXk8kxp2OelIap6TcoguSBVOEMnk,4J1c7flqmFXPi51mMS_00l66F8wcABmX,70.5,633,184,2,6,637,5,635,3.54e-316,863.0,657,649
+M-XQN-LZbGTFgj0rp2dFnIsF9bQm9chC,0v6Ldmv9eeUG6igtKY-RTxemiOPO-iG9,64.3,462,158,4,6,466,3,458,2.1e-182,509.0,474,460
diff --git a/tests/python/data/compare_proteins/test_MMseqsEasySearch.csv b/tests/python/data/compare_proteins/test_MMseqsEasySearch.csv
new file mode 100644
index 00000000..9f5221f0
--- /dev/null
+++ b/tests/python/data/compare_proteins/test_MMseqsEasySearch.csv
@@ -0,0 +1,25 @@
+query,target,pident,length,mismatch,gapopen,qstart,qend,sstart,send,evalue,bitscore,qlen,slen
+qEcFCOXPHpf_D6FiGPea8DkV_AWWZjMy,uG-Um--bm_FHCq-iy0uo8sHib58ReCw_,47.7,380,197,0,2,381,169,545,5.862e-108,344.0,405,547
+_bM-9OJARu4IC1V8jchTXDIaTPuLUhCe,kUiC97nMN3p9XGQznxIcoDXjYFjcjeOD,51.5,130,62,0,1,129,1,130,5.271e-42,140.0,138,134
+etULepIwK3A8cTlCpg7R-CAWJISYYy0t,WnKuODuGjL34CVAQ7kvTIeuaZOBeUZmA,74.0,220,57,0,1,220,1,220,5.102e-105,326.0,222,226
+D8hihmbo9jMJDf3zV2YsgAKSTgxHwc05,35es2QbNXZvIz8lXRZjAgPOdp_9BZMxk,60.2,218,85,0,5,219,31,248,2.683e-84,267.0,225,253
+_0OhI8CwFqgCa97qVet-jbUA7WN2Q3XF,52NDrUtW4VpoW_5metaigrwcSiNy4nLt,25.8,248,166,0,8,232,7,254,1.555e-08,45.0,233,256
+uNrCjGQbe9LsL9umHQWqvG2OQykvFxFw,fkNtoGfCrQQfBSksSqd7Gjv5RdiQH8Ia,65.2,230,80,0,1,230,1,230,2.513e-100,313.0,231,234
+uNrCjGQbe9LsL9umHQWqvG2OQykvFxFw,nEdlX-kJdaVkOWtt0Hd9Ccv828Sjwjah,48.8,211,106,0,1,211,1,208,1.498e-54,181.0,231,215
+UpM8jOJT2xvzuU9Nbq6foihOdCQg0JR0,4nWmfQ-f7mG0sB3KZqC1b81jBf2xJBik,55.8,203,88,0,5,207,20,220,1.697e-64,209.0,224,221
+M-VPo39ep4Utq6_Fru4JuNM9rp3Wmu45,tzmklOd_BQ4zCXJ8OiXEoLGyjQ3LYUuD,43.7,359,189,0,18,354,1,359,3.3310000000000003e-78,256.0,364,376
+KbJwxUWA9hBamAnz7boyic9xuL7YpdFp,52NDrUtW4VpoW_5metaigrwcSiNy4nLt,62.2,254,96,0,6,259,1,254,3.0979999999999996e-92,291.0,261,256
+uYr-bewprIg6Swc5EWnzKCpQiTuVowir,1WwuCuwJXaYDZN9b47_IRfrTu8BwWEKe,64.7,321,113,0,1,321,13,333,9.059e-133,412.0,322,334
+abYaRpVeBw6U9ZaXiEMND4z-J7_bnwBW,4lkDnHjbCLe38TRMATM7Q7stnchNYbGt,39.5,378,226,0,3,376,8,385,3.512e-64,216.0,389,396
+TT9-VE-A9iUNQx8UtgoRlcKHXw521wxV,KCRfjiLoK7SiZW5lvuqxj5cL71La0pHA,61.6,271,103,0,1,269,78,348,1.041e-107,337.0,274,353
+ennTHgEojAJicxoKyyb-1MWJz5q0YNGv,90OhAlVQq5BrRFnV44GitGEpepY_zZEr,54.0,270,123,0,1,269,1,270,7.959e-98,308.0,269,270
+ennTHgEojAJicxoKyyb-1MWJz5q0YNGv,wNs7ekpuD-RDwVfiqLO0eg2U6NjQpHg-,51.8,268,128,0,1,267,1,268,4.7550000000000005e-96,303.0,269,270
+BIkruFDUoKjckgk0j6oZUrBk_oAj16YG,wNs7ekpuD-RDwVfiqLO0eg2U6NjQpHg-,56.8,268,115,0,1,268,1,267,5.731e-103,323.0,279,270
+BIkruFDUoKjckgk0j6oZUrBk_oAj16YG,90OhAlVQq5BrRFnV44GitGEpepY_zZEr,53.9,268,123,0,1,268,1,267,7.279e-96,303.0,279,270
+IU-V8ZvWVd1C1Z-evwLfP_KkJT7mZCvA,AAPVmUvcWZtYkxwRx0EV64-OBFtL8HOd,59.3,325,131,0,4,327,1,325,8.072e-114,359.0,350,328
+orV-86yt1TbEwWGDAkU3bVNpe459Hl1B,LJkzeA6-YkPu5alDDy-m0BbXYw4SKboZ,57.8,171,72,0,7,177,20,190,2.663e-62,201.0,180,192
+HiEbAmsTAFh_WLCbMsjHa7rYMmA3aAVn,RNafvyyc5PZHMVgzF8FkDrHTqXs9010E,57.3,618,258,0,18,635,17,621,6.876e-217,673.0,654,621
+4EeqbFY1V20e1Z8RNjccxJsJaspnPGB1,_xvHFg1H1f43WxPcZT1P8Qbcx60chSxh,68.5,523,163,0,1,523,1,520,8.644e-236,721.0,523,523
+U3Cgn6zYdFSQVEZFTRUnAo1zaJfp9-Q4,4lkDnHjbCLe38TRMATM7Q7stnchNYbGt,61.0,388,151,0,8,394,3,390,1.035e-146,456.0,402,396
+lsxvnXk8kxp2OelIap6TcoguSBVOEMnk,4J1c7flqmFXPi51mMS_00l66F8wcABmX,70.4,632,186,0,6,637,5,635,5.1480000000000005e-288,879.0,657,649
+M-XQN-LZbGTFgj0rp2dFnIsF9bQm9chC,0v6Ldmv9eeUG6igtKY-RTxemiOPO-iG9,65.1,461,159,0,6,466,3,458,9.961000000000001e-172,533.0,474,460
diff --git a/tests/python/parsers/test_fasta.py b/tests/python/parsers/test_fasta.py
index c812fc60..b6794fb8 100644
--- a/tests/python/parsers/test_fasta.py
+++ b/tests/python/parsers/test_fasta.py
@@ -148,9 +148,12 @@ def test_parse_2():
     for ak, av in a.assemblies.items():
         for lk, lv in av.loci.items():
             for fk in lv.features:
-                assert isinstance(fk.parent_object, molbio.Locus)
-                del fk.parent_object
+                assert isinstance(fk.parent, molbio.Locus)
+                assert isinstance(fk.protein, molbio.Protein)
                 if fk.external_id == "Q5JCW8":
+                    assert fk.protein.uid == "bhdSZvyUK6GzqHTXz4VjgtbefefmHI6x"
+                    del fk.protein
+                    del fk.parent
                     assert fk.all_attributes() == {
                         "description": "tr|Q5JCW8|Q5JCW8_THEKO Hypothetical membrane protein, conserved OS=Thermococcus kodakarensis (strain ATCC BAA-918 / JCM 12380 / KOD1) (Pyrococcus kodakaraensis (strain KOD1)) OX=69014 GN=TK0357 PE=4 SV=1",
                         "external_id": "Q5JCW8",
@@ -171,6 +174,10 @@ def test_parse_2():
                         "uid": "bhdSZvyUK6GzqHTXz4VjgtbefefmHI6x",
                     }
                 if fk.external_id == "Q52500":
+                    assert isinstance(fk.protein, molbio.Protein)
+                    assert fk.protein.uid == "r_qK-VXr_gDUb3NluH3qmgG1I09eOIOT"
+                    del fk.protein
+                    del fk.parent
                     assert fk.all_attributes() == {
                         "description": "sp|Q52500|THSB_THEKO Thermosome subunit beta OS=Thermococcus kodakarensis (strain ATCC BAA-918 / JCM 12380 / KOD1) (Pyrococcus kodakaraensis (strain KOD1)) OX=69014 GN=thsB PE=3 SV=1",
                         "external_id": "Q52500",
diff --git a/tests/python/test_autogen.py b/tests/python/test_autogen.py
index 58612ebb..139c3fb5 100644
--- a/tests/python/test_autogen.py
+++ b/tests/python/test_autogen.py
@@ -20,37 +20,37 @@
 # def test_filter_assemblies(search_result_df):
 #     result = ProcessSearchResult(search_result_df, 2)
 #     result.filter_assemblies(2)
-#     assert len(result.df) == 4
-#     assert set(result.df["assembly_uid"]) == {"A", "B"}
+#     assert len(resultprotein_comparisons_df) == 4
+#     assert set(resultprotein_comparisons_df["assembly_uid"]) == {"A", "B"}
 
 
 # def test_filter_nucleotides(search_result_df):
 #     result = ProcessSearchResult(search_result_df, 2)
 #     result.filter_nucleotides(2)
-#     assert len(result.df) == 4
-#     assert set(result.df["nucleotide_uid"]) == {"a", "b"}
+#     assert len(resultprotein_comparisons_df) == 4
+#     assert set(resultprotein_comparisons_df["nucleotide_uid"]) == {"a", "b"}
 
 
 # def test_label_clusters(search_result_df):
 #     result = ProcessSearchResult(search_result_df, 2)
 #     result._label_clusters(max_gap=5)
-#     assert len(result.df) == 6
-#     assert set(result.df["cluster"]) == {0, 1, 2}
+#     assert len(resultprotein_comparisons_df) == 6
+#     assert set(resultprotein_comparisons_df["cluster"]) == {0, 1, 2}
 
 
 # def test_calc_intrahits(search_result_df):
 #     result = ProcessSearchResult(search_result_df, 2)
 #     result._label_clusters(max_gap=5)
 #     result._calc_intrahits()
-#     assert len(result.df) == 6
-#     assert set(result.df["cluster_unique_hits"]) == {1, 2}
+#     assert len(resultprotein_comparisons_df) == 6
+#     assert set(resultprotein_comparisons_df["cluster_unique_hits"]) == {1, 2}
 
 
 # def test_process(search_result_df):
 #     result = ProcessSearchResult(search_result_df, 2)
 #     result.process(2, 2, 5)
-#     assert len(result.df) == 4
-#     assert set(result.df["assembly_uid"]) == {"A", "B"}
-#     assert set(result.df["nucleotide_uid"]) == {"a", "b"}
-#     assert set(result.df["cluster"]) == {0, 1}
-#     assert set(result.df["cluster_unique_hits"]) == {1, 2}
+#     assert len(resultprotein_comparisons_df) == 4
+#     assert set(resultprotein_comparisons_df["assembly_uid"]) == {"A", "B"}
+#     assert set(resultprotein_comparisons_df["nucleotide_uid"]) == {"a", "b"}
+#     assert set(resultprotein_comparisons_df["cluster"]) == {0, 1}
+#     assert set(resultprotein_comparisons_df["cluster_unique_hits"]) == {1, 2}