From 929d1376b0f69c50d1e315c83cb2db1d860db409 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Kajus=20=C4=8Cerniauskas?= <kajeliukasc@gmail.com>
Date: Wed, 31 Jul 2024 17:47:02 +0300
Subject: [PATCH 01/10] implemented a method request gene information by its
 id, forms it to dataframe.

---
 api/__init__.py         |    4 +-
 api/data/__init__.py    |   60 +
 api/data/refactoring.py |   86 ++
 tests/pipeline.ipynb    | 3245 ++++++++++++++-------------------------
 4 files changed, 1338 insertions(+), 2057 deletions(-)

diff --git a/api/__init__.py b/api/__init__.py
index 940f6f3..f54edfc 100644
--- a/api/__init__.py
+++ b/api/__init__.py
@@ -54,5 +54,7 @@
     # Functions for refactoring data
     set_lovd_dtypes,
     parse_lovd,
-    from_clinvar_name_to_cdna_position
+    from_clinvar_name_to_cdna_position,
+    save_lovd_as_vcf,
+    request_clinvar_api_data
 )
diff --git a/api/data/__init__.py b/api/data/__init__.py
index e69de29..001190d 100644
--- a/api/data/__init__.py
+++ b/api/data/__init__.py
@@ -0,0 +1,60 @@
+"""
+Package for data collection purposes provides both collection and refactoring functionality.
+
+Data from LOVD, ClinVar and GnomAd databases can be downloaded using this package. GnomAd and
+ClinVar are limited with EYS gene, but it is possible to download data for any gene in LOVD.
+
+All necessary functionality can be imported directly from data without
+specifying the module.
+
+data collection pipeline example is established for project's specific usage.
+"""
+
+# CONSTANTS IMPORT
+from .constants import (
+  # URLs for LOVD database
+  LOVD_URL, LOVD_URL_EYS, LOVD_FILE_URL, LOVD_FILE_URL_EYS,
+
+  # URLs for gnomAD database
+  GNOMAD_URL, GNOMAD_URL_EYS, GNOMAD_FILE_URL_EYS,
+
+  # URLs for ClinVar database
+  CLINVAR_URL, CLINVAR_URL_EYS, CLINVAR_FILE_URL_EYS,
+
+  # Paths for data storage
+  DATA_PATH, LOVD_PATH, GNOMAD_PATH, CLINVAR_PATH,
+
+  # Data types for tables
+  LOVD_TABLES_DATA_TYPES,
+
+  # Paths for database downloads
+  DATABASES_DOWNLOAD_PATHS
+)
+
+# DATA COLLECTION IMPORT
+from .collection import (
+    # Custom exceptions
+    BadResponseException,
+    DownloadError,
+
+    # Custom utility functions
+    get_file_from_url,
+
+    # Functions for downloading databases
+    download_lovd_database_for_eys_gene,
+    download_genes_lovd,
+    download_database_for_eys_gene,
+
+    # Functions for storing databases
+    store_database_for_eys_gene
+)
+
+# DATA REFACTORING IMPORT
+from .refactoring import (
+    # Functions for refactoring data
+    set_lovd_dtypes,
+    parse_lovd,
+    from_clinvar_name_to_cdna_position,
+    save_lovd_as_vcf,
+    request_clinvar_api_data,
+)
diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index efcf1f1..f7142a3 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -3,11 +3,15 @@
 import os
 import logging
 
+import pandas
+import requests
+
 import pandas as pd
 from pandas import DataFrame
 
 from .constants import LOVD_TABLES_DATA_TYPES, LOVD_PATH
 
+
 def set_lovd_dtypes(df_dict):
     """
     Convert data from LOVD format table to desired data format based on specified data types.
@@ -154,3 +158,85 @@ def save_lovd_as_vcf(data, save_to="./lovd.vcf"):
 
             f.write("\t".join(record))
             f.write("\n")
+
+
+def request_clinvar_api_data(gene_id: str):
+    """
+    Requests ClinVar API for data about variant with given id.\n
+    Converts it to pandas dataframe.
+
+    :param str gene_id: id of variant (may be multiple)
+    :returns: dataframe from ClinVar API
+    :rtype: dataframe
+    """
+
+    path = f"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id={gene_id}&retmode=json"
+
+    request = requests.get(path)
+
+    if request.status_code != 200:
+        raise ValueError(f"Request failed with status code {request.status_code}")
+
+    data = request.json()
+
+    # Extract the 'result' part of the JSON
+    results = data['result']
+
+    # Extract the 'uids' part of the JSON
+    flattened_data = []
+
+    for uid in results['uids']:
+        entry = results[uid]
+
+        # Using pd.json_normalize to flatten the JSON data
+        flattened_entry = pd.json_normalize(entry, sep='_')
+
+        flattened_variation_set = pd.json_normalize(flattened_entry['variation_set'][0], sep='_')
+        flattened_variation_xrefs = pd.json_normalize(flattened_variation_set['variation_xrefs'][0], sep='_')
+        flattened_variation_loc0 = pd.json_normalize(flattened_variation_set['variation_loc'][0][0],
+                                                     sep='_')  # 1/2 frames
+        flattened_variation_loc0 = flattened_variation_loc0.add_prefix('0_')
+        flattened_variation_loc1 = pd.json_normalize(flattened_variation_set['variation_loc'][0][1],
+                                                     sep='_')  # 2/2 frames
+        flattened_variation_loc1 = flattened_variation_loc1.add_prefix('1_')
+        flattened_allele_freq_set = pd.json_normalize(flattened_variation_set['allele_freq_set'][0], sep='_')
+
+        flattened_genes0 = pd.json_normalize(flattened_entry['genes'][0][0], sep='_')  # 1/2 frames
+        flattened_genes0 = flattened_genes0.add_prefix('0_')
+        flattened_genes1 = pd.json_normalize(flattened_entry['genes'][0][1], sep='_')  # 2/2 frames
+        flattened_genes1 = flattened_genes1.add_prefix('1_')
+
+        flattened_germline_classification_trait_set = pd.json_normalize(
+            flattened_entry['germline_classification_trait_set'][0], sep='_')
+        flattened_trait_xrefs = pd.json_normalize(flattened_germline_classification_trait_set['trait_xrefs'][0],
+                                                  sep='_')
+
+        # dropping extracted nests
+        flattened_entry = flattened_entry.drop(columns=['variation_set', 'genes', 'germline_classification_trait_set'],
+                                               axis=1)
+        flattened_variation_set = flattened_variation_set.drop(
+            columns=['variation_xrefs', 'variation_loc', 'allele_freq_set'], axis=1)
+        flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.drop(
+            columns=['trait_xrefs'], axis=1)
+
+        # adding extracted nests to the frames
+        flattened_germline_classification_trait_set = pd.concat(
+            [flattened_germline_classification_trait_set, flattened_trait_xrefs], axis=1)
+
+        flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_xrefs], axis=1)
+        flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_loc0], axis=1)  # might break
+        flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_loc1], axis=1)  # might break
+        flattened_variation_set = pd.concat([flattened_variation_set, flattened_allele_freq_set], axis=1)
+
+        flattened_entry = pd.concat([flattened_entry, flattened_variation_set], axis=1)
+        flattened_entry = pd.concat([flattened_entry, flattened_genes0], axis=1)
+        flattened_entry = pd.concat([flattened_entry, flattened_genes1], axis=1)
+        flattened_entry = pd.concat([flattened_entry, flattened_germline_classification_trait_set], axis=1)
+
+        # Append the flattened entry to the list
+        flattened_data.append(flattened_entry)
+
+    # Concatenate all flattened entries into a single DataFrame
+    df = pd.concat(flattened_data, ignore_index=True)
+
+    return df
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index 67814a7..210a5fe 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -2,44 +2,47 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 1,
    "id": "initial_id",
    "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-05-13T15:38:18.029744Z",
-     "start_time": "2024-05-13T15:38:17.807980Z"
-    },
     "collapsed": true,
     "jupyter": {
      "outputs_hidden": true
+    },
+    "ExecuteTime": {
+     "end_time": "2024-07-31T14:38:44.492053Z",
+     "start_time": "2024-07-31T14:38:44.487236Z"
     }
    },
-   "outputs": [],
    "source": [
     "import pandas as pd\n",
     "\n",
     "from api.data import (store_database_for_eys_gene,\n",
     "                      parse_lovd,\n",
     "                      LOVD_PATH,\n",
-    "                      set_lovd_dtypes)\n",
+    "                      set_lovd_dtypes,\n",
+    "                      )\n",
     "from api.data import save_lovd_as_vcf\n",
     "pd.options.display.max_columns = 0"
-   ]
+   ],
+   "outputs": [],
+   "execution_count": 41
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
    "id": "f49f7691a27aa7b4",
    "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-05-13T15:08:35.710520Z",
-     "start_time": "2024-05-13T15:08:35.708264Z"
-    },
     "collapsed": false,
     "jupyter": {
      "outputs_hidden": false
+    },
+    "ExecuteTime": {
+     "end_time": "2024-07-31T14:38:44.501624Z",
+     "start_time": "2024-07-31T14:38:44.494128Z"
     }
    },
+   "source": [
+    "store_database_for_eys_gene(\"lovd\", override=False)"
+   ],
    "outputs": [
     {
      "name": "stdout",
@@ -49,39 +52,41 @@
      ]
     }
    ],
-   "source": [
-    "store_database_for_eys_gene(\"lovd\", override=False)"
-   ]
+   "execution_count": 42
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
    "id": "cf5c45c0f7b9de0f",
    "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-05-13T15:38:24.591752Z",
-     "start_time": "2024-05-13T15:38:19.498594Z"
-    },
     "collapsed": false,
     "jupyter": {
      "outputs_hidden": false
+    },
+    "ExecuteTime": {
+     "end_time": "2024-07-31T14:38:51.917606Z",
+     "start_time": "2024-07-31T14:38:44.502630Z"
     }
    },
-   "outputs": [],
    "source": [
     "data = parse_lovd(LOVD_PATH + \"/lovd_data.txt\")"
-   ]
+   ],
+   "outputs": [],
+   "execution_count": 43
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
    "id": "8a089e29bfc8c119",
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2024-05-13T15:12:07.510712Z",
-     "start_time": "2024-05-13T15:12:07.366319Z"
+     "end_time": "2024-07-31T14:38:52.101863Z",
+     "start_time": "2024-07-31T14:38:51.918626Z"
     }
    },
+   "source": [
+    "for i in data:\n",
+    "    print(i)\n",
+    "    display(data[i])"
+   ],
    "outputs": [
     {
      "name": "stdout",
@@ -92,6 +97,12 @@
     },
     {
      "data": {
+      "text/plain": [
+       "    id                            name  ... updated_by         updated_date\n",
+       "0  EYS  eyes shut homolog (Drosophila)  ...      00006  2024-05-31 11:42:04\n",
+       "\n",
+       "[1 rows x 34 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -160,40 +171,34 @@
        "      <td></td>\n",
        "      <td>http://www.LOVD.nl/EYS</td>\n",
        "      <td></td>\n",
-       "      <td>NaN</td>\n",
+       "      <td>1</td>\n",
        "      <td>21555</td>\n",
        "      <td>346007</td>\n",
        "      <td>612424</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
+       "      <td>1</td>\n",
+       "      <td>1</td>\n",
+       "      <td>1</td>\n",
+       "      <td>1</td>\n",
        "      <td>&lt;font color=\\\"#FF0000\\\"&gt;This database is one o...</td>\n",
        "      <td></td>\n",
        "      <td>g</td>\n",
        "      <td>http://databases.lovd.nl/shared/refseq/EYS_NM_...</td>\n",
-       "      <td>NaN</td>\n",
+       "      <td>1</td>\n",
        "      <td></td>\n",
        "      <td>&lt;font color=\\\"#FF0000\\\"&gt;This database is one o...</td>\n",
        "      <td>-1</td>\n",
        "      <td></td>\n",
        "      <td>-1</td>\n",
-       "      <td>1</td>\n",
-       "      <td>2012-02-13</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00001</td>\n",
+       "      <td>2012-02-13 00:00:00</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2023-08-30 13:08:19</td>\n",
-       "      <td>0</td>\n",
-       "      <td>2024-04-19 20:27:30</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>2024-05-31 11:42:04</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "    id                            name  ...  updated_by        updated_date\n",
-       "0  EYS  eyes shut homolog (Drosophila)  ...           0 2024-04-19 20:27:30\n",
-       "\n",
-       "[1 rows x 34 columns]"
       ]
      },
      "metadata": {},
@@ -208,6 +213,12 @@
     },
     {
      "data": {
+      "text/plain": [
+       "         id geneid  ... edited_by edited_date\n",
+       "0  00007329    EYS  ...                      \n",
+       "\n",
+       "[1 rows x 19 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -251,10 +262,10 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>7329</td>\n",
+       "      <td>00007329</td>\n",
        "      <td>EYS</td>\n",
        "      <td>transcript variant 1</td>\n",
-       "      <td>1</td>\n",
+       "      <td>001</td>\n",
        "      <td>NM_001142800.1</td>\n",
        "      <td></td>\n",
        "      <td>NP_001136272.1</td>\n",
@@ -266,20 +277,14 @@
        "      <td>9435</td>\n",
        "      <td>66417118</td>\n",
        "      <td>64429876</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
+       "      <td></td>\n",
+       "      <td>0000-00-00 00:00:00</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "     id geneid                  name  ...  created_date edited_by edited_date\n",
-       "0  7329    EYS  transcript variant 1  ...           NaT      <NA>         NaT\n",
-       "\n",
-       "[1 rows x 19 columns]"
       ]
      },
      "metadata": {},
@@ -294,6 +299,26 @@
     },
     {
      "data": {
+      "text/plain": [
+       "       id             symbol  ... edited_by          edited_date\n",
+       "0   00012              PSORS  ...     00006  2019-08-12 13:38:21\n",
+       "1   00058               CORD  ...     00006  2020-08-30 09:43:59\n",
+       "2   00112                 RP  ...     00006  2021-01-18 09:53:26\n",
+       "3   00139                 ID  ...     00006  2015-02-09 10:02:49\n",
+       "4   00173               SLOS  ...     00006  2021-12-10 21:51:32\n",
+       "5   00198                  ?  ...     00006  2016-10-22 17:54:40\n",
+       "6   02156                  -  ...     00006  2021-12-10 21:51:32\n",
+       "7   02440               RP25  ...     00006  2021-12-10 21:51:32\n",
+       "8   04211               RPar  ...                               \n",
+       "9   04214                  -  ...     00001  2023-03-09 14:26:26\n",
+       "10  04249  macular dystrophy  ...     00006  2024-02-15 21:18:39\n",
+       "11  05086                 HL  ...     00006  2015-10-23 11:43:00\n",
+       "12  05415                USH  ...                               \n",
+       "13  05468            uveitis  ...                               \n",
+       "14  06906                DEE  ...                               \n",
+       "\n",
+       "[15 rows x 12 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -330,37 +355,37 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>12</td>\n",
+       "      <td>00012</td>\n",
        "      <td>PSORS</td>\n",
        "      <td>psoriasis, pustular, generalized (PSORS)</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2012-07-06 21:50:32</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2019-08-12 13:38:21</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>58</td>\n",
+       "      <td>00058</td>\n",
        "      <td>CORD</td>\n",
        "      <td>dystrophy, cone-rod (CORD)</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2012-09-22 11:31:25</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2020-08-30 09:43:59</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>112</td>\n",
+       "      <td>00112</td>\n",
        "      <td>RP</td>\n",
        "      <td>retinitis pigmentosa (RP)</td>\n",
        "      <td></td>\n",
@@ -368,29 +393,29 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>1</td>\n",
+       "      <td>00001</td>\n",
        "      <td>2013-02-21 17:12:36</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2021-01-18 09:53:26</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>139</td>\n",
+       "      <td>00139</td>\n",
        "      <td>ID</td>\n",
        "      <td>intellectual disability (ID)</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>84</td>\n",
+       "      <td></td>\n",
+       "      <td>00084</td>\n",
        "      <td>2013-06-04 18:18:07</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2015-02-09 10:02:49</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>173</td>\n",
+       "      <td>00173</td>\n",
        "      <td>SLOS</td>\n",
        "      <td>Smith-Lemli-Opitz syndrome (SLOS)</td>\n",
        "      <td>AR</td>\n",
@@ -398,29 +423,29 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2013-08-01 11:16:14</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2021-12-10 21:51:32</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>5</th>\n",
-       "      <td>198</td>\n",
+       "      <td>00198</td>\n",
        "      <td>?</td>\n",
        "      <td>unclassified / mixed</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2013-09-13 14:21:47</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2016-10-22 17:54:40</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>6</th>\n",
-       "      <td>2156</td>\n",
+       "      <td>02156</td>\n",
        "      <td>-</td>\n",
        "      <td>retinitis pigmentosa, X-linked, and sinorespir...</td>\n",
        "      <td></td>\n",
@@ -428,14 +453,14 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2014-09-25 23:29:40</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2021-12-10 21:51:32</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>7</th>\n",
-       "      <td>2440</td>\n",
+       "      <td>02440</td>\n",
        "      <td>RP25</td>\n",
        "      <td>retinitis pigmentosa, type 25 (RP25)</td>\n",
        "      <td>AR</td>\n",
@@ -443,139 +468,119 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2014-09-25 23:29:40</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2021-12-10 21:51:32</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>8</th>\n",
-       "      <td>4211</td>\n",
+       "      <td>04211</td>\n",
        "      <td>RPar</td>\n",
        "      <td>retinitis pigmentosa, autosomal recessive (RPar)</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2015-02-27 18:58:57</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>9</th>\n",
-       "      <td>4214</td>\n",
+       "      <td>04214</td>\n",
        "      <td>-</td>\n",
        "      <td>retinal disease</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2015-02-27 19:48:07</td>\n",
-       "      <td>1</td>\n",
+       "      <td>00001</td>\n",
        "      <td>2023-03-09 14:26:26</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>10</th>\n",
-       "      <td>4249</td>\n",
+       "      <td>04249</td>\n",
        "      <td>macular dystrophy</td>\n",
        "      <td>dystrophy, macular</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2015-05-04 22:10:58</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2024-02-15 21:18:39</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>11</th>\n",
-       "      <td>5086</td>\n",
+       "      <td>05086</td>\n",
        "      <td>HL</td>\n",
        "      <td>hearing loss (HL)</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2015-10-23 11:41:05</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2015-10-23 11:43:00</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>12</th>\n",
-       "      <td>5415</td>\n",
+       "      <td>05415</td>\n",
        "      <td>USH</td>\n",
        "      <td>Usher syndrome (USH)</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2018-04-02 16:40:44</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>13</th>\n",
-       "      <td>5468</td>\n",
+       "      <td>05468</td>\n",
        "      <td>uveitis</td>\n",
        "      <td>uveitis</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2018-08-22 09:47:04</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>14</th>\n",
-       "      <td>6906</td>\n",
+       "      <td>06906</td>\n",
        "      <td>DEE</td>\n",
        "      <td>encephalopathy, developmental and epileptic</td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td></td>\n",
+       "      <td>00006</td>\n",
        "      <td>2022-04-07 09:24:23</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "      id             symbol  ... edited_by         edited_date\n",
-       "0     12              PSORS  ...         6 2019-08-12 13:38:21\n",
-       "1     58               CORD  ...         6 2020-08-30 09:43:59\n",
-       "2    112                 RP  ...         6 2021-01-18 09:53:26\n",
-       "3    139                 ID  ...         6 2015-02-09 10:02:49\n",
-       "4    173               SLOS  ...         6 2021-12-10 21:51:32\n",
-       "5    198                  ?  ...         6 2016-10-22 17:54:40\n",
-       "6   2156                  -  ...         6 2021-12-10 21:51:32\n",
-       "7   2440               RP25  ...         6 2021-12-10 21:51:32\n",
-       "8   4211               RPar  ...      <NA>                 NaT\n",
-       "9   4214                  -  ...         1 2023-03-09 14:26:26\n",
-       "10  4249  macular dystrophy  ...         6 2024-02-15 21:18:39\n",
-       "11  5086                 HL  ...         6 2015-10-23 11:43:00\n",
-       "12  5415                USH  ...      <NA>                 NaT\n",
-       "13  5468            uveitis  ...      <NA>                 NaT\n",
-       "14  6906                DEE  ...      <NA>                 NaT\n",
-       "\n",
-       "[15 rows x 12 columns]"
       ]
      },
      "metadata": {},
@@ -590,6 +595,11 @@
     },
     {
      "data": {
+      "text/plain": [
+       "  geneid diseaseid\n",
+       "0    EYS     00112\n",
+       "1    EYS     02440"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -617,21 +627,16 @@
        "    <tr>\n",
        "      <th>0</th>\n",
        "      <td>EYS</td>\n",
-       "      <td>112</td>\n",
+       "      <td>00112</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
        "      <td>EYS</td>\n",
-       "      <td>2440</td>\n",
+       "      <td>02440</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "  geneid  diseaseid\n",
-       "0    EYS        112\n",
-       "1    EYS       2440"
       ]
      },
      "metadata": {},
@@ -646,6 +651,22 @@
     },
     {
      "data": {
+      "text/plain": [
+       "            id fatherid  ... Individual/Origin/Population Individual/Individual_ID\n",
+       "0     00000135           ...                                                      \n",
+       "1     00000210           ...                                                      \n",
+       "2     00001962           ...                        white                         \n",
+       "3     00016605           ...                                                      \n",
+       "4     00033096           ...                                                      \n",
+       "...        ...      ...  ...                          ...                      ...\n",
+       "1460  00451166           ...                                                071788\n",
+       "1461  00451252           ...                                                072857\n",
+       "1462  00451259           ...                                                073069\n",
+       "1463  00451333           ...                                                075139\n",
+       "1464  00451348           ...                                                080622\n",
+       "\n",
+       "[1465 rows x 18 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -688,13 +709,13 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>135</td>\n",
+       "      <td>00000135</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>3</td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>{PMID:Marrakchi 2011:21848462}</td>\n",
        "      <td>5-generation family, 3 affecteds (M)</td>\n",
        "      <td>M</td>\n",
@@ -709,13 +730,13 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>210</td>\n",
+       "      <td>00000210</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>1</td>\n",
        "      <td></td>\n",
-       "      <td>39</td>\n",
+       "      <td>00039</td>\n",
        "      <td>{PMID:Abu-Safieh-2013:23105016}</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -730,13 +751,13 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>1962</td>\n",
+       "      <td>00001962</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>1</td>\n",
        "      <td></td>\n",
-       "      <td>25</td>\n",
+       "      <td>00025</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td>M</td>\n",
@@ -751,13 +772,13 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>16605</td>\n",
+       "      <td>00016605</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>1</td>\n",
        "      <td></td>\n",
-       "      <td>552</td>\n",
+       "      <td>00552</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -772,13 +793,13 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>33096</td>\n",
+       "      <td>00033096</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>1</td>\n",
        "      <td></td>\n",
-       "      <td>229</td>\n",
+       "      <td>00229</td>\n",
        "      <td>{PMID:Neveling 2012:22334370}</td>\n",
        "      <td></td>\n",
        "      <td>M</td>\n",
@@ -813,130 +834,114 @@
        "      <td>...</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1445</th>\n",
-       "      <td>447702</td>\n",
+       "      <th>1460</th>\n",
+       "      <td>00451166</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>1</td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
-       "      <td>{PMID:Weisschuh 2024:37734845}</td>\n",
-       "      <td>patient, no family history</td>\n",
-       "      <td>F</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>Germany</td>\n",
        "      <td></td>\n",
        "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>SRP-1105</td>\n",
+       "      <td>071788</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1446</th>\n",
-       "      <td>447707</td>\n",
+       "      <th>1461</th>\n",
+       "      <td>00451252</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>1</td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
-       "      <td>{PMID:Weisschuh 2024:37734845}</td>\n",
-       "      <td>patient, no family history</td>\n",
-       "      <td>M</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>Germany</td>\n",
        "      <td></td>\n",
        "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>SRP-1167</td>\n",
+       "      <td>072857</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1447</th>\n",
-       "      <td>447716</td>\n",
+       "      <th>1462</th>\n",
+       "      <td>00451259</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>1</td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
-       "      <td>{PMID:Weisschuh 2024:37734845}</td>\n",
-       "      <td>patient, no family history</td>\n",
-       "      <td>F</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>Germany</td>\n",
        "      <td></td>\n",
        "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>SRP-1249</td>\n",
+       "      <td>073069</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1448</th>\n",
-       "      <td>447718</td>\n",
+       "      <th>1463</th>\n",
+       "      <td>00451333</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>1</td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
-       "      <td>{PMID:Weisschuh 2024:37734845}</td>\n",
-       "      <td>patient, no family history</td>\n",
-       "      <td>M</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>Germany</td>\n",
        "      <td></td>\n",
        "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>SRP-1274</td>\n",
+       "      <td>075139</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1449</th>\n",
-       "      <td>447720</td>\n",
+       "      <th>1464</th>\n",
+       "      <td>00451348</td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
        "      <td>1</td>\n",
        "      <td></td>\n",
-       "      <td>6</td>\n",
-       "      <td>{PMID:Weisschuh 2024:37734845}</td>\n",
-       "      <td>patient</td>\n",
-       "      <td>M</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>Germany</td>\n",
        "      <td></td>\n",
        "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>SRP-1299</td>\n",
+       "      <td>080622</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
-       "<p>1450 rows × 18 columns</p>\n",
+       "<p>1465 rows × 18 columns</p>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "          id fatherid  ... Individual/Origin/Population  Individual/Individual_ID\n",
-       "0        135           ...                                                       \n",
-       "1        210           ...                                                       \n",
-       "2       1962           ...                        white                          \n",
-       "3      16605           ...                                                       \n",
-       "4      33096           ...                                                       \n",
-       "...      ...      ...  ...                          ...                       ...\n",
-       "1445  447702           ...                                               SRP-1105\n",
-       "1446  447707           ...                                               SRP-1167\n",
-       "1447  447716           ...                                               SRP-1249\n",
-       "1448  447718           ...                                               SRP-1274\n",
-       "1449  447720           ...                                               SRP-1299\n",
-       "\n",
-       "[1450 rows x 18 columns]"
       ]
      },
      "metadata": {},
@@ -951,6 +956,22 @@
     },
     {
      "data": {
+      "text/plain": [
+       "     individualid diseaseid\n",
+       "0        00000135     00012\n",
+       "1        00000210     00058\n",
+       "2        00001962     00173\n",
+       "3        00033096     04214\n",
+       "4        00033109     04214\n",
+       "...           ...       ...\n",
+       "1459     00451166     04249\n",
+       "1460     00451252     04249\n",
+       "1461     00451259     04249\n",
+       "1462     00451333     04249\n",
+       "1463     00451348     04249\n",
+       "\n",
+       "[1464 rows x 2 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -977,28 +998,28 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>135</td>\n",
-       "      <td>12</td>\n",
+       "      <td>00000135</td>\n",
+       "      <td>00012</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>210</td>\n",
-       "      <td>58</td>\n",
+       "      <td>00000210</td>\n",
+       "      <td>00058</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>1962</td>\n",
-       "      <td>173</td>\n",
+       "      <td>00001962</td>\n",
+       "      <td>00173</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>33096</td>\n",
-       "      <td>4214</td>\n",
+       "      <td>00033096</td>\n",
+       "      <td>04214</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>33109</td>\n",
-       "      <td>4214</td>\n",
+       "      <td>00033109</td>\n",
+       "      <td>04214</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>...</th>\n",
@@ -1006,50 +1027,34 @@
        "      <td>...</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1444</th>\n",
-       "      <td>447702</td>\n",
-       "      <td>198</td>\n",
+       "      <th>1459</th>\n",
+       "      <td>00451166</td>\n",
+       "      <td>04249</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1445</th>\n",
-       "      <td>447707</td>\n",
-       "      <td>198</td>\n",
+       "      <th>1460</th>\n",
+       "      <td>00451252</td>\n",
+       "      <td>04249</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1446</th>\n",
-       "      <td>447716</td>\n",
-       "      <td>198</td>\n",
+       "      <th>1461</th>\n",
+       "      <td>00451259</td>\n",
+       "      <td>04249</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1447</th>\n",
-       "      <td>447718</td>\n",
-       "      <td>198</td>\n",
+       "      <th>1462</th>\n",
+       "      <td>00451333</td>\n",
+       "      <td>04249</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1448</th>\n",
-       "      <td>447720</td>\n",
-       "      <td>198</td>\n",
+       "      <th>1463</th>\n",
+       "      <td>00451348</td>\n",
+       "      <td>04249</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
-       "<p>1449 rows × 2 columns</p>\n",
+       "<p>1464 rows × 2 columns</p>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "      individualid  diseaseid\n",
-       "0              135         12\n",
-       "1              210         58\n",
-       "2             1962        173\n",
-       "3            33096       4214\n",
-       "4            33109       4214\n",
-       "...            ...        ...\n",
-       "1444        447702        198\n",
-       "1445        447707        198\n",
-       "1446        447716        198\n",
-       "1447        447718        198\n",
-       "1448        447720        198\n",
-       "\n",
-       "[1449 rows x 2 columns]"
       ]
      },
      "metadata": {},
@@ -1064,6 +1069,22 @@
     },
     {
      "data": {
+      "text/plain": [
+       "              id  ... Phenotype/Diagnosis/Criteria\n",
+       "0     0000000008  ...                             \n",
+       "1     0000000026  ...                             \n",
+       "2     0000000941  ...                             \n",
+       "3     0000026525  ...                             \n",
+       "4     0000026538  ...                             \n",
+       "...          ...  ...                          ...\n",
+       "1272  0000339895  ...                             \n",
+       "1273  0000339896  ...                             \n",
+       "1274  0000339897  ...                             \n",
+       "1275  0000339898  ...                             \n",
+       "1276  0000339899  ...                             \n",
+       "\n",
+       "[1277 rows x 20 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -1108,10 +1129,10 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>8</td>\n",
-       "      <td>12</td>\n",
-       "      <td>135</td>\n",
-       "      <td>6</td>\n",
+       "      <td>0000000008</td>\n",
+       "      <td>00012</td>\n",
+       "      <td>00000135</td>\n",
+       "      <td>00006</td>\n",
        "      <td>Familial, autosomal recessive</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1131,10 +1152,10 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>26</td>\n",
-       "      <td>58</td>\n",
-       "      <td>210</td>\n",
-       "      <td>39</td>\n",
+       "      <td>0000000026</td>\n",
+       "      <td>00058</td>\n",
+       "      <td>00000210</td>\n",
+       "      <td>00039</td>\n",
        "      <td>Familial, autosomal recessive</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1154,10 +1175,10 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>941</td>\n",
-       "      <td>173</td>\n",
-       "      <td>1962</td>\n",
-       "      <td>25</td>\n",
+       "      <td>0000000941</td>\n",
+       "      <td>00173</td>\n",
+       "      <td>00001962</td>\n",
+       "      <td>00025</td>\n",
        "      <td>Familial</td>\n",
        "      <td></td>\n",
        "      <td>2-3 toe syndactyly</td>\n",
@@ -1177,10 +1198,10 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>26525</td>\n",
-       "      <td>4214</td>\n",
-       "      <td>33096</td>\n",
-       "      <td>229</td>\n",
+       "      <td>0000026525</td>\n",
+       "      <td>04214</td>\n",
+       "      <td>00033096</td>\n",
+       "      <td>00229</td>\n",
        "      <td>Unknown</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1200,10 +1221,10 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>26538</td>\n",
-       "      <td>4214</td>\n",
-       "      <td>33109</td>\n",
-       "      <td>229</td>\n",
+       "      <td>0000026538</td>\n",
+       "      <td>04214</td>\n",
+       "      <td>00033109</td>\n",
+       "      <td>00229</td>\n",
        "      <td>Unknown</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1245,11 +1266,11 @@
        "      <td>...</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1266</th>\n",
-       "      <td>336901</td>\n",
-       "      <td>198</td>\n",
-       "      <td>447702</td>\n",
-       "      <td>6</td>\n",
+       "      <th>1272</th>\n",
+       "      <td>0000339895</td>\n",
+       "      <td>04249</td>\n",
+       "      <td>00450840</td>\n",
+       "      <td>04405</td>\n",
        "      <td>Unknown</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1264,15 +1285,15 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>retinitis pigmentosa, simplex</td>\n",
+       "      <td>Stargardt disease</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1267</th>\n",
-       "      <td>336906</td>\n",
-       "      <td>198</td>\n",
-       "      <td>447707</td>\n",
-       "      <td>6</td>\n",
+       "      <th>1273</th>\n",
+       "      <td>0000339896</td>\n",
+       "      <td>04249</td>\n",
+       "      <td>00450841</td>\n",
+       "      <td>04405</td>\n",
        "      <td>Unknown</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1287,15 +1308,15 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>retinitis pigmentosa, simplex</td>\n",
+       "      <td>Stargardt disease</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1268</th>\n",
-       "      <td>336915</td>\n",
-       "      <td>198</td>\n",
-       "      <td>447716</td>\n",
-       "      <td>6</td>\n",
+       "      <th>1274</th>\n",
+       "      <td>0000339897</td>\n",
+       "      <td>04249</td>\n",
+       "      <td>00450842</td>\n",
+       "      <td>04405</td>\n",
        "      <td>Unknown</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1310,15 +1331,15 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>retinitis pigmentosa, simplex</td>\n",
+       "      <td>cone-rod dystrophy</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1269</th>\n",
-       "      <td>336917</td>\n",
-       "      <td>198</td>\n",
-       "      <td>447718</td>\n",
-       "      <td>6</td>\n",
+       "      <th>1275</th>\n",
+       "      <td>0000339898</td>\n",
+       "      <td>04249</td>\n",
+       "      <td>00450843</td>\n",
+       "      <td>04405</td>\n",
        "      <td>Unknown</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1333,15 +1354,15 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>retinitis pigmentosa, simplex</td>\n",
+       "      <td>Stargardt disease</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1270</th>\n",
-       "      <td>336919</td>\n",
-       "      <td>198</td>\n",
-       "      <td>447720</td>\n",
-       "      <td>6</td>\n",
+       "      <th>1276</th>\n",
+       "      <td>0000339899</td>\n",
+       "      <td>04249</td>\n",
+       "      <td>00450844</td>\n",
+       "      <td>04405</td>\n",
        "      <td>Unknown</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1356,29 +1377,13 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>retinitis pigmentosa, simplex</td>\n",
+       "      <td>macular dystrophy</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
-       "<p>1271 rows × 20 columns</p>\n",
+       "<p>1277 rows × 20 columns</p>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "          id  ...  Phenotype/Diagnosis/Criteria\n",
-       "0          8  ...                              \n",
-       "1         26  ...                              \n",
-       "2        941  ...                              \n",
-       "3      26525  ...                              \n",
-       "4      26538  ...                              \n",
-       "...      ...  ...                           ...\n",
-       "1266  336901  ...                              \n",
-       "1267  336906  ...                              \n",
-       "1268  336915  ...                              \n",
-       "1269  336917  ...                              \n",
-       "1270  336919  ...                              \n",
-       "\n",
-       "[1271 rows x 20 columns]"
       ]
      },
      "metadata": {},
@@ -1393,6 +1398,22 @@
     },
     {
      "data": {
+      "text/plain": [
+       "              id individualid  ... Screening/Tissue              Screening/Remarks\n",
+       "0     0000000126     00000135  ...                                                \n",
+       "1     0000000211     00000210  ...                                                \n",
+       "2     0000001640     00001962  ...                                                \n",
+       "3     0000016557     00016605  ...                                                \n",
+       "4     0000033164     00033096  ...                                                \n",
+       "...          ...          ...  ...              ...                            ...\n",
+       "1460  0000452765     00451166  ...                   smMIP-based 105 iMD/AMD genes\n",
+       "1461  0000452851     00451252  ...                   smMIP-based 105 iMD/AMD genes\n",
+       "1462  0000452858     00451259  ...                   smMIP-based 105 iMD/AMD genes\n",
+       "1463  0000452932     00451333  ...                   smMIP-based 105 iMD/AMD genes\n",
+       "1464  0000452947     00451348  ...                   smMIP-based 105 iMD/AMD genes\n",
+       "\n",
+       "[1465 rows x 12 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -1429,13 +1450,13 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>126</td>\n",
-       "      <td>135</td>\n",
+       "      <td>0000000126</td>\n",
+       "      <td>00000135</td>\n",
        "      <td>1</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2012-07-07 19:04:19</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2012-07-07 19:12:08</td>\n",
        "      <td>RT-PCR;SEQ</td>\n",
        "      <td>DNA;RNA</td>\n",
@@ -1444,14 +1465,14 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>211</td>\n",
-       "      <td>210</td>\n",
+       "      <td>0000000211</td>\n",
+       "      <td>00000210</td>\n",
        "      <td>1</td>\n",
-       "      <td>39</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00039</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2012-09-22 11:36:24</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "      <td>SEQ</td>\n",
        "      <td>DNA</td>\n",
        "      <td></td>\n",
@@ -1459,13 +1480,13 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>1640</td>\n",
-       "      <td>1962</td>\n",
+       "      <td>0000001640</td>\n",
+       "      <td>00001962</td>\n",
        "      <td>1</td>\n",
-       "      <td>25</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00025</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2010-03-11 16:36:41</td>\n",
-       "      <td>25</td>\n",
+       "      <td>00025</td>\n",
        "      <td>2012-04-13 15:18:00</td>\n",
        "      <td>SEQ</td>\n",
        "      <td>DNA</td>\n",
@@ -1474,14 +1495,14 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>16557</td>\n",
-       "      <td>16605</td>\n",
+       "      <td>0000016557</td>\n",
+       "      <td>00016605</td>\n",
        "      <td>1</td>\n",
-       "      <td>552</td>\n",
-       "      <td>552</td>\n",
+       "      <td>00552</td>\n",
+       "      <td>00552</td>\n",
        "      <td>2014-05-23 13:12:43</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
        "      <td>SEQ-NG-I</td>\n",
        "      <td>DNA</td>\n",
        "      <td></td>\n",
@@ -1489,13 +1510,13 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>33164</td>\n",
-       "      <td>33096</td>\n",
+       "      <td>0000033164</td>\n",
+       "      <td>00033096</td>\n",
        "      <td>1</td>\n",
-       "      <td>229</td>\n",
-       "      <td>229</td>\n",
+       "      <td>00229</td>\n",
+       "      <td>00229</td>\n",
        "      <td>2012-02-04 15:20:01</td>\n",
-       "      <td>6</td>\n",
+       "      <td>00006</td>\n",
        "      <td>2012-05-18 13:59:33</td>\n",
        "      <td>SEQ;SEQ-NG-S</td>\n",
        "      <td>DNA</td>\n",
@@ -1518,100 +1539,84 @@
        "      <td>...</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1445</th>\n",
-       "      <td>449279</td>\n",
-       "      <td>447702</td>\n",
+       "      <th>1460</th>\n",
+       "      <td>0000452765</td>\n",
+       "      <td>00451166</td>\n",
        "      <td>1</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6</td>\n",
-       "      <td>2024-01-26 10:23:59</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
-       "      <td>SEQ-NG</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>2024-05-31 11:39:36</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>SEQ</td>\n",
        "      <td>DNA</td>\n",
        "      <td></td>\n",
-       "      <td>WGS</td>\n",
+       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1446</th>\n",
-       "      <td>449284</td>\n",
-       "      <td>447707</td>\n",
+       "      <th>1461</th>\n",
+       "      <td>0000452851</td>\n",
+       "      <td>00451252</td>\n",
        "      <td>1</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6</td>\n",
-       "      <td>2024-01-26 10:23:59</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
-       "      <td>SEQ-NG</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>2024-05-31 11:39:36</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>SEQ</td>\n",
        "      <td>DNA</td>\n",
        "      <td></td>\n",
-       "      <td>WGS</td>\n",
+       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1447</th>\n",
-       "      <td>449293</td>\n",
-       "      <td>447716</td>\n",
+       "      <th>1462</th>\n",
+       "      <td>0000452858</td>\n",
+       "      <td>00451259</td>\n",
        "      <td>1</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6</td>\n",
-       "      <td>2024-01-26 10:23:59</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
-       "      <td>SEQ-NG</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>2024-05-31 11:39:36</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>SEQ</td>\n",
        "      <td>DNA</td>\n",
        "      <td></td>\n",
-       "      <td>WGS</td>\n",
+       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1448</th>\n",
-       "      <td>449295</td>\n",
-       "      <td>447718</td>\n",
+       "      <th>1463</th>\n",
+       "      <td>0000452932</td>\n",
+       "      <td>00451333</td>\n",
        "      <td>1</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6</td>\n",
-       "      <td>2024-01-26 10:23:59</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
-       "      <td>SEQ-NG</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>2024-05-31 11:39:36</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>SEQ</td>\n",
        "      <td>DNA</td>\n",
        "      <td></td>\n",
-       "      <td>WGS</td>\n",
+       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>1449</th>\n",
-       "      <td>449297</td>\n",
-       "      <td>447720</td>\n",
+       "      <th>1464</th>\n",
+       "      <td>0000452947</td>\n",
+       "      <td>00451348</td>\n",
        "      <td>1</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6</td>\n",
-       "      <td>2024-01-26 10:23:59</td>\n",
-       "      <td>&lt;NA&gt;</td>\n",
-       "      <td>NaT</td>\n",
-       "      <td>SEQ-NG</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>2024-05-31 11:39:36</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>SEQ</td>\n",
        "      <td>DNA</td>\n",
        "      <td></td>\n",
-       "      <td>WGS</td>\n",
+       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
-       "<p>1450 rows × 12 columns</p>\n",
+       "<p>1465 rows × 12 columns</p>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "          id  individualid  ...  Screening/Tissue  Screening/Remarks\n",
-       "0        126           135  ...                                     \n",
-       "1        211           210  ...                                     \n",
-       "2       1640          1962  ...                                     \n",
-       "3      16557         16605  ...                                     \n",
-       "4      33164         33096  ...                                     \n",
-       "...      ...           ...  ...               ...                ...\n",
-       "1445  449279        447702  ...                                  WGS\n",
-       "1446  449284        447707  ...                                  WGS\n",
-       "1447  449293        447716  ...                                  WGS\n",
-       "1448  449295        447718  ...                                  WGS\n",
-       "1449  449297        447720  ...                                  WGS\n",
-       "\n",
-       "[1450 rows x 12 columns]"
       ]
      },
      "metadata": {},
@@ -1626,6 +1631,22 @@
     },
     {
      "data": {
+      "text/plain": [
+       "     screeningid  geneid\n",
+       "0     0000000126  IL36RN\n",
+       "1     0000000211    MKS1\n",
+       "2     0000001640   DHCR7\n",
+       "3     0000033164    AHI1\n",
+       "4     0000033164     EYS\n",
+       "...          ...     ...\n",
+       "1311  0000437646     EYS\n",
+       "1312  0000437902     EYS\n",
+       "1313  0000437922     EYS\n",
+       "1314  0000443144     EYS\n",
+       "1315  0000443145     EYS\n",
+       "\n",
+       "[1316 rows x 2 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -1652,27 +1673,27 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>126</td>\n",
+       "      <td>0000000126</td>\n",
        "      <td>IL36RN</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>211</td>\n",
+       "      <td>0000000211</td>\n",
        "      <td>MKS1</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>1640</td>\n",
+       "      <td>0000001640</td>\n",
        "      <td>DHCR7</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>33164</td>\n",
+       "      <td>0000033164</td>\n",
        "      <td>AHI1</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>33164</td>\n",
+       "      <td>0000033164</td>\n",
        "      <td>EYS</td>\n",
        "    </tr>\n",
        "    <tr>\n",
@@ -1682,49 +1703,33 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1311</th>\n",
-       "      <td>437646</td>\n",
+       "      <td>0000437646</td>\n",
        "      <td>EYS</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1312</th>\n",
-       "      <td>437902</td>\n",
+       "      <td>0000437902</td>\n",
        "      <td>EYS</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1313</th>\n",
-       "      <td>437922</td>\n",
+       "      <td>0000437922</td>\n",
        "      <td>EYS</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1314</th>\n",
-       "      <td>443144</td>\n",
+       "      <td>0000443144</td>\n",
        "      <td>EYS</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1315</th>\n",
-       "      <td>443145</td>\n",
+       "      <td>0000443145</td>\n",
        "      <td>EYS</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
        "<p>1316 rows × 2 columns</p>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "      screeningid  geneid\n",
-       "0             126  IL36RN\n",
-       "1             211    MKS1\n",
-       "2            1640   DHCR7\n",
-       "3           33164    AHI1\n",
-       "4           33164     EYS\n",
-       "...           ...     ...\n",
-       "1311       437646     EYS\n",
-       "1312       437902     EYS\n",
-       "1313       437922     EYS\n",
-       "1314       443144     EYS\n",
-       "1315       443145     EYS\n",
-       "\n",
-       "[1316 rows x 2 columns]"
       ]
      },
      "metadata": {},
@@ -1739,6 +1744,22 @@
     },
     {
      "data": {
+      "text/plain": [
+       "              id  ... VariantOnGenome/ClinicalClassification/Method\n",
+       "0     0000036426  ...                                              \n",
+       "1     0000059881  ...                                              \n",
+       "2     0000059883  ...                                              \n",
+       "3     0000059884  ...                                              \n",
+       "4     0000059885  ...                                              \n",
+       "...          ...  ...                                           ...\n",
+       "2555  0000987292  ...                                          ACMG\n",
+       "2556  0000987305  ...                                          ACMG\n",
+       "2557  0000987318  ...                                          ACMG\n",
+       "2558  0000987322  ...                                          ACMG\n",
+       "2559  0000987333  ...                                          ACMG\n",
+       "\n",
+       "[2560 rows x 26 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -1789,15 +1810,15 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>36426</td>\n",
+       "      <td>0000036426</td>\n",
        "      <td>3</td>\n",
        "      <td>50</td>\n",
        "      <td>6</td>\n",
        "      <td>64498971</td>\n",
        "      <td>64498971</td>\n",
        "      <td>subst</td>\n",
-       "      <td>0.000743</td>\n",
-       "      <td>552</td>\n",
+       "      <td>0.000742922</td>\n",
+       "      <td>00552</td>\n",
        "      <td>EYS_000007</td>\n",
        "      <td>g.64498971A&gt;G</td>\n",
        "      <td></td>\n",
@@ -1818,15 +1839,15 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>59881</td>\n",
+       "      <td>0000059881</td>\n",
        "      <td>3</td>\n",
        "      <td>55</td>\n",
        "      <td>6</td>\n",
        "      <td>65655758</td>\n",
        "      <td>65655758</td>\n",
        "      <td>subst</td>\n",
-       "      <td>0.001153</td>\n",
-       "      <td>229</td>\n",
+       "      <td>0.00115297</td>\n",
+       "      <td>00229</td>\n",
        "      <td>EYS_000001</td>\n",
        "      <td>g.65655758T&gt;G</td>\n",
        "      <td>ExAC: 60, 19750, 0, 0.003038</td>\n",
@@ -1847,7 +1868,7 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>59883</td>\n",
+       "      <td>0000059883</td>\n",
        "      <td>1</td>\n",
        "      <td>11</td>\n",
        "      <td>6</td>\n",
@@ -1855,7 +1876,7 @@
        "      <td>65336143</td>\n",
        "      <td>subst</td>\n",
        "      <td>0.224189</td>\n",
-       "      <td>229</td>\n",
+       "      <td>00229</td>\n",
        "      <td>EYS_000002</td>\n",
        "      <td>g.65336143G&gt;A</td>\n",
        "      <td>ExAC: 3936, 19366, 441, 0.2032</td>\n",
@@ -1876,15 +1897,15 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>59884</td>\n",
+       "      <td>0000059884</td>\n",
        "      <td>1</td>\n",
        "      <td>15</td>\n",
        "      <td>6</td>\n",
        "      <td>65300869</td>\n",
        "      <td>65300869</td>\n",
        "      <td>subst</td>\n",
-       "      <td>0.000838</td>\n",
-       "      <td>229</td>\n",
+       "      <td>0.000837928</td>\n",
+       "      <td>00229</td>\n",
        "      <td>EYS_000003</td>\n",
        "      <td>g.65300869G&gt;A</td>\n",
        "      <td>ExAC: 12, 19406, 0, 0.0006184</td>\n",
@@ -1905,15 +1926,15 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>59885</td>\n",
+       "      <td>0000059885</td>\n",
        "      <td>1</td>\n",
        "      <td>11</td>\n",
        "      <td>6</td>\n",
        "      <td>65016998</td>\n",
        "      <td>65016999</td>\n",
        "      <td>del</td>\n",
-       "      <td>0.000000</td>\n",
-       "      <td>229</td>\n",
+       "      <td>0</td>\n",
+       "      <td>00229</td>\n",
        "      <td>EYS_000004</td>\n",
        "      <td>g.65016998_65016999del</td>\n",
        "      <td>ExAC: 9866, 18292, 921, 0.5394</td>\n",
@@ -1962,170 +1983,154 @@
        "      <td>...</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2536</th>\n",
-       "      <td>964211</td>\n",
+       "      <th>2555</th>\n",
+       "      <td>0000987292</td>\n",
        "      <td>0</td>\n",
-       "      <td>30</td>\n",
+       "      <td>70</td>\n",
        "      <td>6</td>\n",
-       "      <td>65767634</td>\n",
-       "      <td>65767634</td>\n",
+       "      <td>64431111</td>\n",
+       "      <td>64431111</td>\n",
        "      <td>subst</td>\n",
-       "      <td>0.243022</td>\n",
-       "      <td>2330</td>\n",
-       "      <td>EYS_000248</td>\n",
-       "      <td>g.65767634G&gt;A</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>EYS(NM_001292009.2):c.2024-15_2024-14delTCinsTT</td>\n",
-       "      <td>VKGL data sharing initiative Nederland</td>\n",
-       "      <td>CLASSIFICATION record</td>\n",
-       "      <td></td>\n",
+       "      <td>0</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>EYS_000662</td>\n",
+       "      <td>g.64431111C&gt;T</td>\n",
        "      <td></td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
        "      <td></td>\n",
+       "      <td>c.8879G&gt;A (Cys2960Tyr)</td>\n",
+       "      <td>case unsolved</td>\n",
+       "      <td>Germline</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>likely benign</td>\n",
+       "      <td>g.63721215C&gt;T</td>\n",
        "      <td></td>\n",
+       "      <td>likely pathogenic</td>\n",
+       "      <td>ACMG</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2537</th>\n",
-       "      <td>964212</td>\n",
+       "      <th>2556</th>\n",
+       "      <td>0000987305</td>\n",
        "      <td>0</td>\n",
-       "      <td>30</td>\n",
+       "      <td>70</td>\n",
        "      <td>6</td>\n",
-       "      <td>65767643</td>\n",
-       "      <td>65767643</td>\n",
+       "      <td>66115167</td>\n",
+       "      <td>66115167</td>\n",
        "      <td>del</td>\n",
-       "      <td>0.000000</td>\n",
-       "      <td>2330</td>\n",
-       "      <td>EYS_000926</td>\n",
-       "      <td>g.65767643del</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>EYS(NM_001292009.2):c.2024-15delT</td>\n",
-       "      <td>VKGL data sharing initiative Nederland</td>\n",
-       "      <td>CLASSIFICATION record</td>\n",
+       "      <td>0</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>EYS_000933</td>\n",
+       "      <td>g.66115167del</td>\n",
        "      <td></td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>no variant 2nd chromosome, case unsolved</td>\n",
+       "      <td>Germline</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>likely benign</td>\n",
+       "      <td>g.65405274del</td>\n",
        "      <td></td>\n",
+       "      <td>likely pathogenic</td>\n",
+       "      <td>ACMG</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2538</th>\n",
-       "      <td>964215</td>\n",
+       "      <th>2557</th>\n",
+       "      <td>0000987318</td>\n",
        "      <td>0</td>\n",
-       "      <td>50</td>\n",
+       "      <td>70</td>\n",
        "      <td>6</td>\n",
-       "      <td>66005927</td>\n",
-       "      <td>66005927</td>\n",
+       "      <td>64431148</td>\n",
+       "      <td>64431148</td>\n",
        "      <td>subst</td>\n",
-       "      <td>0.000112</td>\n",
-       "      <td>2327</td>\n",
-       "      <td>EYS_000253</td>\n",
-       "      <td>g.66005927C&gt;T</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>EYS(NM_001142800.1):c.1852G&gt;A (p.G618S), EYS(N...</td>\n",
-       "      <td>VKGL data sharing initiative Nederland</td>\n",
-       "      <td>CLASSIFICATION record</td>\n",
+       "      <td>3.95361E-5</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>EYS_000067</td>\n",
+       "      <td>g.64431148A&gt;G</td>\n",
        "      <td></td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>no variant 2nd chromosome, case unsolved</td>\n",
+       "      <td>Germline</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>VUS</td>\n",
+       "      <td>g.63721252A&gt;G</td>\n",
        "      <td></td>\n",
+       "      <td>likely pathogenic</td>\n",
+       "      <td>ACMG</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2539</th>\n",
-       "      <td>964216</td>\n",
+       "      <th>2558</th>\n",
+       "      <td>0000987322</td>\n",
        "      <td>0</td>\n",
-       "      <td>50</td>\n",
+       "      <td>90</td>\n",
        "      <td>6</td>\n",
-       "      <td>66044874</td>\n",
-       "      <td>66044874</td>\n",
-       "      <td>subst</td>\n",
-       "      <td>0.000082</td>\n",
-       "      <td>2327</td>\n",
-       "      <td>EYS_000256</td>\n",
-       "      <td>g.66044874T&gt;C</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>EYS(NM_001292009.2):c.1765A&gt;G (p.R589G)</td>\n",
-       "      <td>VKGL data sharing initiative Nederland</td>\n",
-       "      <td>CLASSIFICATION record</td>\n",
+       "      <td>64430626</td>\n",
+       "      <td>64430629</td>\n",
+       "      <td>del</td>\n",
+       "      <td>0</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>EYS_000045</td>\n",
+       "      <td>g.64430626_64430629del</td>\n",
        "      <td></td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>no variant 2nd chromosome, case unsolved</td>\n",
+       "      <td>Germline</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>VUS</td>\n",
+       "      <td>g.63720730_63720733del</td>\n",
        "      <td></td>\n",
+       "      <td>pathogenic</td>\n",
+       "      <td>ACMG</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2540</th>\n",
-       "      <td>977314</td>\n",
+       "      <th>2559</th>\n",
+       "      <td>0000987333</td>\n",
        "      <td>0</td>\n",
        "      <td>90</td>\n",
        "      <td>6</td>\n",
-       "      <td>64430943</td>\n",
-       "      <td>64430943</td>\n",
-       "      <td>subst</td>\n",
-       "      <td>0.000007</td>\n",
-       "      <td>1804</td>\n",
-       "      <td>EYS_000060</td>\n",
-       "      <td>g.64430943A&gt;T</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
+       "      <td>64436477</td>\n",
+       "      <td>64436477</td>\n",
+       "      <td>del</td>\n",
+       "      <td>1.349E-5</td>\n",
+       "      <td>00006</td>\n",
+       "      <td>EYS_000397</td>\n",
+       "      <td>g.64436477del</td>\n",
        "      <td></td>\n",
-       "      <td>EYS(NM_001142800.2):c.8984T&gt;A (p.(Ile2995Asn))...</td>\n",
-       "      <td>VKGL data sharing initiative Nederland</td>\n",
-       "      <td>CLASSIFICATION record</td>\n",
+       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>no variant 2nd chromosome, case unsolved</td>\n",
+       "      <td>Germline</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>0</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>g.63726584del</td>\n",
        "      <td></td>\n",
        "      <td>pathogenic</td>\n",
-       "      <td></td>\n",
+       "      <td>ACMG</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
-       "<p>2541 rows × 26 columns</p>\n",
+       "<p>2560 rows × 26 columns</p>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "          id  ...  VariantOnGenome/ClinicalClassification/Method\n",
-       "0      36426  ...                                               \n",
-       "1      59881  ...                                               \n",
-       "2      59883  ...                                               \n",
-       "3      59884  ...                                               \n",
-       "4      59885  ...                                               \n",
-       "...      ...  ...                                            ...\n",
-       "2536  964211  ...                                               \n",
-       "2537  964212  ...                                               \n",
-       "2538  964215  ...                                               \n",
-       "2539  964216  ...                                               \n",
-       "2540  977314  ...                                               \n",
-       "\n",
-       "[2541 rows x 26 columns]"
       ]
      },
      "metadata": {},
@@ -2140,6 +2145,22 @@
     },
     {
      "data": {
+      "text/plain": [
+       "              id  ... VariantOnTranscript/Exon\n",
+       "0     0000036426  ...                       38\n",
+       "1     0000059881  ...                       15\n",
+       "2     0000059883  ...                      22i\n",
+       "3     0000059884  ...                       26\n",
+       "4     0000059885  ...                      29i\n",
+       "...          ...  ...                      ...\n",
+       "2555  0000987292  ...                         \n",
+       "2556  0000987305  ...                         \n",
+       "2557  0000987318  ...                         \n",
+       "2558  0000987322  ...                         \n",
+       "2559  0000987333  ...                         \n",
+       "\n",
+       "[2560 rows x 11 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -2175,8 +2196,8 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>36426</td>\n",
-       "      <td>7329</td>\n",
+       "      <td>0000036426</td>\n",
+       "      <td>00007329</td>\n",
        "      <td>50</td>\n",
        "      <td>7558</td>\n",
        "      <td>0</td>\n",
@@ -2189,8 +2210,8 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>59881</td>\n",
-       "      <td>7329</td>\n",
+       "      <td>0000059881</td>\n",
+       "      <td>00007329</td>\n",
        "      <td>55</td>\n",
        "      <td>2309</td>\n",
        "      <td>0</td>\n",
@@ -2203,8 +2224,8 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>59883</td>\n",
-       "      <td>7329</td>\n",
+       "      <td>0000059883</td>\n",
+       "      <td>00007329</td>\n",
        "      <td>11</td>\n",
        "      <td>3444</td>\n",
        "      <td>-5</td>\n",
@@ -2217,8 +2238,8 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>59884</td>\n",
-       "      <td>7329</td>\n",
+       "      <td>0000059884</td>\n",
+       "      <td>00007329</td>\n",
        "      <td>15</td>\n",
        "      <td>4891</td>\n",
        "      <td>0</td>\n",
@@ -2231,8 +2252,8 @@
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>59885</td>\n",
-       "      <td>7329</td>\n",
+       "      <td>0000059885</td>\n",
+       "      <td>00007329</td>\n",
        "      <td>11</td>\n",
        "      <td>6079</td>\n",
        "      <td>-4</td>\n",
@@ -2258,95 +2279,79 @@
        "      <td>...</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2536</th>\n",
-       "      <td>964211</td>\n",
-       "      <td>7329</td>\n",
-       "      <td>30</td>\n",
-       "      <td>2024</td>\n",
-       "      <td>-14</td>\n",
-       "      <td>2024</td>\n",
-       "      <td>-14</td>\n",
-       "      <td>c.2024-14C&gt;T</td>\n",
-       "      <td>r.(=)</td>\n",
-       "      <td>p.(=)</td>\n",
+       "      <th>2555</th>\n",
+       "      <td>0000987292</td>\n",
+       "      <td>00007329</td>\n",
+       "      <td>70</td>\n",
+       "      <td>8816</td>\n",
+       "      <td>0</td>\n",
+       "      <td>8816</td>\n",
+       "      <td>0</td>\n",
+       "      <td>c.8816G&gt;A</td>\n",
+       "      <td>r.(?)</td>\n",
+       "      <td>p.(Cys2939Tyr)</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2537</th>\n",
-       "      <td>964212</td>\n",
-       "      <td>7329</td>\n",
-       "      <td>30</td>\n",
-       "      <td>2024</td>\n",
-       "      <td>-15</td>\n",
-       "      <td>2024</td>\n",
-       "      <td>-15</td>\n",
-       "      <td>c.2024-15del</td>\n",
-       "      <td>r.(=)</td>\n",
-       "      <td>p.(=)</td>\n",
+       "      <th>2556</th>\n",
+       "      <td>0000987305</td>\n",
+       "      <td>00007329</td>\n",
+       "      <td>70</td>\n",
+       "      <td>957</td>\n",
+       "      <td>0</td>\n",
+       "      <td>957</td>\n",
+       "      <td>0</td>\n",
+       "      <td>c.957del</td>\n",
+       "      <td>r.(?)</td>\n",
+       "      <td>p.(Glu319AspfsTer20)</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2538</th>\n",
-       "      <td>964215</td>\n",
-       "      <td>7329</td>\n",
-       "      <td>50</td>\n",
-       "      <td>1852</td>\n",
+       "      <th>2557</th>\n",
+       "      <td>0000987318</td>\n",
+       "      <td>00007329</td>\n",
+       "      <td>70</td>\n",
+       "      <td>8779</td>\n",
        "      <td>0</td>\n",
-       "      <td>1852</td>\n",
+       "      <td>8779</td>\n",
        "      <td>0</td>\n",
-       "      <td>c.1852G&gt;A</td>\n",
+       "      <td>c.8779T&gt;C</td>\n",
        "      <td>r.(?)</td>\n",
-       "      <td>p.(Gly618Ser)</td>\n",
+       "      <td>p.(Cys2927Arg)</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2539</th>\n",
-       "      <td>964216</td>\n",
-       "      <td>7329</td>\n",
-       "      <td>50</td>\n",
-       "      <td>1765</td>\n",
+       "      <th>2558</th>\n",
+       "      <td>0000987322</td>\n",
+       "      <td>00007329</td>\n",
+       "      <td>90</td>\n",
+       "      <td>9299</td>\n",
        "      <td>0</td>\n",
-       "      <td>1765</td>\n",
+       "      <td>9302</td>\n",
        "      <td>0</td>\n",
-       "      <td>c.1765A&gt;G</td>\n",
+       "      <td>c.9299_9302del</td>\n",
        "      <td>r.(?)</td>\n",
-       "      <td>p.(Arg589Gly)</td>\n",
+       "      <td>p.(Thr3100LysfsTer26)</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2540</th>\n",
-       "      <td>977314</td>\n",
-       "      <td>7329</td>\n",
+       "      <th>2559</th>\n",
+       "      <td>0000987333</td>\n",
+       "      <td>00007329</td>\n",
        "      <td>90</td>\n",
-       "      <td>8984</td>\n",
+       "      <td>8168</td>\n",
        "      <td>0</td>\n",
-       "      <td>8984</td>\n",
+       "      <td>8168</td>\n",
        "      <td>0</td>\n",
-       "      <td>c.8984T&gt;A</td>\n",
+       "      <td>c.8168del</td>\n",
        "      <td>r.(?)</td>\n",
-       "      <td>p.(Ile2995Asn)</td>\n",
+       "      <td>p.(Gln2723ArgfsTer18)</td>\n",
        "      <td></td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
-       "<p>2541 rows × 11 columns</p>\n",
+       "<p>2560 rows × 11 columns</p>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "          id  transcriptid  ...  VariantOnTranscript/Protein  VariantOnTranscript/Exon\n",
-       "0      36426          7329  ...               p.(Phe2520Leu)                        38\n",
-       "1      59881          7329  ...                p.(Gln770Pro)                        15\n",
-       "2      59883          7329  ...                        p.(=)                       22i\n",
-       "3      59884          7329  ...               p.(Pro1631Ser)                        26\n",
-       "4      59885          7329  ...                        p.(=)                       29i\n",
-       "...      ...           ...  ...                          ...                       ...\n",
-       "2536  964211          7329  ...                        p.(=)                          \n",
-       "2537  964212          7329  ...                        p.(=)                          \n",
-       "2538  964215          7329  ...                p.(Gly618Ser)                          \n",
-       "2539  964216          7329  ...                p.(Arg589Gly)                          \n",
-       "2540  977314          7329  ...               p.(Ile2995Asn)                          \n",
-       "\n",
-       "[2541 rows x 11 columns]"
       ]
      },
      "metadata": {},
@@ -2361,6 +2366,22 @@
     },
     {
      "data": {
+      "text/plain": [
+       "     screeningid   variantid\n",
+       "0     0000000126  0000783293\n",
+       "1     0000000211  0000790459\n",
+       "2     0000001640  0000235838\n",
+       "3     0000016557  0000036426\n",
+       "4     0000033164  0000059884\n",
+       "...          ...         ...\n",
+       "2163  0000452765  0000987322\n",
+       "2164  0000452851  0000987196\n",
+       "2165  0000452858  0000987333\n",
+       "2166  0000452932  0000987277\n",
+       "2167  0000452947  0000987292\n",
+       "\n",
+       "[2168 rows x 2 columns]"
+      ],
       "text/html": [
        "<div>\n",
        "<style scoped>\n",
@@ -2387,28 +2408,28 @@
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>126</td>\n",
-       "      <td>783293</td>\n",
+       "      <td>0000000126</td>\n",
+       "      <td>0000783293</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>1</th>\n",
-       "      <td>211</td>\n",
-       "      <td>790459</td>\n",
+       "      <td>0000000211</td>\n",
+       "      <td>0000790459</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>1640</td>\n",
-       "      <td>235838</td>\n",
+       "      <td>0000001640</td>\n",
+       "      <td>0000235838</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>16557</td>\n",
-       "      <td>36426</td>\n",
+       "      <td>0000016557</td>\n",
+       "      <td>0000036426</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>33164</td>\n",
-       "      <td>59884</td>\n",
+       "      <td>0000033164</td>\n",
+       "      <td>0000059884</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>...</th>\n",
@@ -2416,1505 +2437,569 @@
        "      <td>...</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2144</th>\n",
-       "      <td>449279</td>\n",
-       "      <td>959046</td>\n",
+       "      <th>2163</th>\n",
+       "      <td>0000452765</td>\n",
+       "      <td>0000987322</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2145</th>\n",
-       "      <td>449284</td>\n",
-       "      <td>959051</td>\n",
+       "      <th>2164</th>\n",
+       "      <td>0000452851</td>\n",
+       "      <td>0000987196</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2146</th>\n",
-       "      <td>449293</td>\n",
-       "      <td>959060</td>\n",
+       "      <th>2165</th>\n",
+       "      <td>0000452858</td>\n",
+       "      <td>0000987333</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2147</th>\n",
-       "      <td>449295</td>\n",
-       "      <td>959474</td>\n",
+       "      <th>2166</th>\n",
+       "      <td>0000452932</td>\n",
+       "      <td>0000987277</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>2148</th>\n",
-       "      <td>449297</td>\n",
-       "      <td>959064</td>\n",
+       "      <th>2167</th>\n",
+       "      <td>0000452947</td>\n",
+       "      <td>0000987292</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
-       "<p>2149 rows × 2 columns</p>\n",
+       "<p>2168 rows × 2 columns</p>\n",
        "</div>"
-      ],
-      "text/plain": [
-       "      screeningid  variantid\n",
-       "0             126     783293\n",
-       "1             211     790459\n",
-       "2            1640     235838\n",
-       "3           16557      36426\n",
-       "4           33164      59884\n",
-       "...           ...        ...\n",
-       "2144       449279     959046\n",
-       "2145       449284     959051\n",
-       "2146       449293     959060\n",
-       "2147       449295     959474\n",
-       "2148       449297     959064\n",
-       "\n",
-       "[2149 rows x 2 columns]"
       ]
      },
      "metadata": {},
      "output_type": "display_data"
     }
    ],
-   "source": [
-    "for i in data:\n",
-    "    print(i)\n",
-    "    display(data[i])"
-   ]
+   "execution_count": 44
   },
   {
    "cell_type": "code",
-   "execution_count": null,
    "id": "ef07740b2fa63e42",
    "metadata": {
     "collapsed": false,
     "jupyter": {
      "outputs_hidden": false
+    },
+    "ExecuteTime": {
+     "end_time": "2024-07-31T14:38:52.345798Z",
+     "start_time": "2024-07-31T14:38:52.102870Z"
     }
    },
-   "outputs": [],
    "source": [
     "set_lovd_dtypes(data)\n",
     "for i in data:\n",
     "    print(i)\n",
     "    display(data[i].info())"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 3,
-   "id": "c968af1617be40db",
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-05-13T15:38:25.149624Z",
-     "start_time": "2024-05-13T15:38:24.807199Z"
-    }
-   },
+   ],
    "outputs": [
     {
-     "name": "stderr",
+     "name": "stdout",
      "output_type": "stream",
      "text": [
-      "WARNING:root:Skipping variant g.64307105_64307106del\n",
-      "WARNING:root:Skipping variant g.65495379dup\n",
-      "WARNING:root:Skipping variant g.65495379dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64902422_64902438del\n",
-      "WARNING:root:Skipping variant g.64902422_64902438del\n",
-      "WARNING:root:Skipping variant g.64840707_64997105del\n",
-      "WARNING:root:Skipping variant g.64840707_64997105del\n",
-      "WARNING:root:Skipping variant g.64840707_64997105del\n",
-      "WARNING:root:Skipping variant g.65295915del\n",
-      "WARNING:root:Skipping variant g.65295915del\n",
-      "WARNING:root:Skipping variant g.65295915del\n",
-      "WARNING:root:Skipping variant g.65057728_65320715del\n",
-      "WARNING:root:Skipping variant g.65057728_65320715del\n",
-      "WARNING:root:Skipping variant g.65057728_65320715del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65384425del\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64439165del\n",
-      "WARNING:root:Skipping variant g.64439165del\n",
-      "WARNING:root:Skipping variant g.64626122del\n",
-      "WARNING:root:Skipping variant g.65494867del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65494867del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65494988_65495003del\n",
-      "WARNING:root:Skipping variant g.63720919_63720920del\n",
-      "WARNING:root:Skipping variant g.63720668dup\n",
-      "WARNING:root:Skipping variant g.63720919_63720920del\n",
-      "WARNING:root:Skipping variant g.63720668dup\n",
-      "WARNING:root:Skipping variant g.63999116del\n",
-      "WARNING:root:Skipping variant g.64591039_64591042del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64822643dup\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.64591505_64591506delinsCT\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.65384480dup\n",
-      "WARNING:root:Skipping variant g.63726599_63726600del\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.63726599_63726600del\n",
-      "WARNING:root:Skipping variant g.65495005_65495008delinsAAG\n",
-      "WARNING:root:Skipping variant g.63726599_63726600del\n",
-      "WARNING:root:Skipping variant g.65335102del\n",
-      "WARNING:root:Skipping variant g.65335102del\n",
-      "WARNING:root:Skipping variant g.65335102del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63999116del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.63999110_63999111del\n",
-      "WARNING:root:Skipping variant g.63999110_63999111del\n",
-      "WARNING:root:Skipping variant g.65321830_65370656del\n",
-      "WARNING:root:Skipping variant g.63720850_63720853del\n",
-      "WARNING:root:Skipping variant g.65321830_65370656del\n",
-      "WARNING:root:Skipping variant g.63720850_63720853del\n",
-      "WARNING:root:Skipping variant g.65321830_65370656del\n",
-      "WARNING:root:Skipping variant g.63720850_63720853del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.63806240del\n",
-      "WARNING:root:Skipping variant g.63806240del\n",
-      "WARNING:root:Skipping variant g.65495332_65495333dup\n",
-      "WARNING:root:Skipping variant g.65324960_65416038del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65295915del\n",
-      "WARNING:root:Skipping variant g.65494988_65495003del\n",
-      "WARNING:root:Skipping variant g.65494988_65495003del\n",
-      "WARNING:root:Skipping variant g.65494988_65495003del\n",
-      "WARNING:root:Skipping variant g.65494988_65495003del\n",
-      "WARNING:root:Skipping variant g.65494988_65495003del\n",
-      "WARNING:root:Skipping variant g.65494988_65495003del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.65384480dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.65344144_65344152delinsCTTTTCG\n",
-      "WARNING:root:Skipping variant g.63984409_63984410delinsACGAT\n",
-      "WARNING:root:Skipping variant g.63788163_63788164del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64912603dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590700dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590700dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64591845del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.63984390del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.63721651_63721652insCA\n",
-      "WARNING:root:Skipping variant g.64590665_64590666del\n",
-      "WARNING:root:Skipping variant g.63721651_63721652insCA\n",
-      "WARNING:root:Skipping variant g.64590665_64590666del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64591466dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64591480del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.63788136del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.63720730_63720733del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64912603dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590665_64590666del\n",
-      "WARNING:root:Skipping variant g.63721652_63721655dup\n",
-      "WARNING:root:Skipping variant g.64590665_64590666del\n",
-      "WARNING:root:Skipping variant g.63721652_63721655dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64912603dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64591313del\n",
-      "WARNING:root:Skipping variant g.64439355_64439356insA\n",
-      "WARNING:root:Skipping variant g.63984543_63984570del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.63984537_63984542dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64614795_64939832del\n",
-      "WARNING:root:Skipping variant g.64614795_64939832del\n",
-      "WARNING:root:Skipping variant g.64614795_64939832del\n",
-      "WARNING:root:Skipping variant g.63721576del\n",
-      "WARNING:root:Skipping variant g.64902132_64902133del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63720889dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.65495379dup\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65495379dup\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63721625dup\n",
-      "WARNING:root:Skipping variant g.65405300dup\n",
-      "WARNING:root:Skipping variant g.64813506del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63720753_63720754dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.65405325dup\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.65707136_65707226del\n",
-      "WARNING:root:Skipping variant g.65495348del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63720845_63720846del\n",
-      "WARNING:root:Skipping variant g.63726607del\n",
-      "WARNING:root:Skipping variant g.63721786dup\n",
-      "WARNING:root:Skipping variant g.63721640del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65344138dup\n",
-      "WARNING:root:Skipping variant g.65402503del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590699_64590700del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590699_64590700del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65384384_65384387del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65384480dup\n",
-      "WARNING:root:Skipping variant g.63806228dup\n",
-      "WARNING:root:Skipping variant g.63999116del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.65384384_65384387del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.63999110_63999111del\n",
-      "WARNING:root:Skipping variant g.63999110_63999111del\n",
-      "WARNING:root:Skipping variant g.63999110_63999111del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64439331del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65494957dup\n",
-      "WARNING:root:Skipping variant g.63720995del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63721771_63721776del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.65494957dup\n",
-      "WARNING:root:Skipping variant g.64591977del\n",
-      "WARNING:root:Skipping variant g.64886728_64886736del\n",
-      "WARNING:root:Skipping variant g.65495379dup\n",
-      "WARNING:root:Skipping variant g.63721138del\n",
-      "WARNING:root:Skipping variant g.65353541del\n",
-      "WARNING:root:Skipping variant g.65353541del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65494988_65495002del\n",
-      "WARNING:root:Skipping variant g.65295857dup\n",
-      "WARNING:root:Skipping variant g.65295856_65295857dup\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64307105_64307106del\n",
-      "WARNING:root:Skipping variant g.64307103_64307106del\n",
-      "WARNING:root:Skipping variant g.63726618_63726622del\n",
-      "WARNING:root:Skipping variant g.63720642_63720644del\n",
-      "WARNING:root:Skipping variant g.65295857dup\n",
-      "WARNING:root:Skipping variant g.64307105_64307106del\n",
-      "WARNING:root:Skipping variant g.65353541del\n",
-      "WARNING:root:Skipping variant g.64591918_64591919del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64590525_64590548del\n",
-      "WARNING:root:Skipping variant g.64388841_64388843del\n",
-      "WARNING:root:Skipping variant g.64307084_64307085del\n",
-      "WARNING:root:Skipping variant g.64307105_64307106del\n",
-      "WARNING:root:Skipping variant g.64307103_64307106del\n",
-      "WARNING:root:Skipping variant g.64307105_64307106del\n",
-      "WARNING:root:Skipping variant g.64593097_64593101del\n",
-      "WARNING:root:Skipping variant g.65384384_65384387del\n",
-      "WARNING:root:Skipping variant g.63999110_63999111del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64439213del\n",
-      "WARNING:root:Skipping variant g.63721771_63721776del\n",
-      "WARNING:root:Skipping variant g.65494957dup\n",
-      "WARNING:root:Skipping variant g.65494988_65495008delinsAAAAG\n",
-      "WARNING:root:Skipping variant g.63720799_63720808del\n",
-      "WARNING:root:Skipping variant g.63726584del\n",
-      "WARNING:root:Skipping variant g.63726599_63726600del\n",
-      "WARNING:root:Skipping variant g.63726648del\n",
-      "WARNING:root:Skipping variant g.64349976_64426764del\n",
-      "WARNING:root:Skipping variant g.64591505_64591506delinsCT\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63720728_63720729del\n",
-      "WARNING:root:Skipping variant g.63720845_63720846del\n",
-      "WARNING:root:Skipping variant g.63721162del\n",
-      "WARNING:root:Skipping variant g.63721237_63721240del\n",
-      "WARNING:root:Skipping variant g.63721343del\n",
-      "WARNING:root:Skipping variant g.63721730_63721733del\n",
-      "WARNING:root:Skipping variant g.63721763_63721767del\n",
-      "WARNING:root:Skipping variant g.63721787dup\n",
-      "WARNING:root:Skipping variant g.63726618_63726622del\n",
-      "WARNING:root:Skipping variant g.63788163_63788164del\n",
-      "WARNING:root:Skipping variant g.63984389del\n",
-      "WARNING:root:Skipping variant g.64066348del\n",
-      "WARNING:root:Skipping variant g.64590909dup\n",
-      "WARNING:root:Skipping variant g.64591309del\n",
-      "WARNING:root:Skipping variant g.64591858_64591859del\n",
-      "WARNING:root:Skipping variant g.64886728_64886736del\n",
-      "WARNING:root:Skipping variant g.64945814del\n",
-      "WARNING:root:Skipping variant g.65344143_65344144insCTTT\n",
-      "WARNING:root:Skipping variant g.65344146_65344151del\n",
-      "WARNING:root:Skipping variant g.65344181dup\n",
-      "WARNING:root:Skipping variant g.65384473dup\n",
-      "WARNING:root:Skipping variant g.65405287del\n",
-      "WARNING:root:Skipping variant g.65494885_65494887del\n",
-      "WARNING:root:Skipping variant g.65494961del\n",
-      "WARNING:root:Skipping variant g.65495205del\n",
-      "WARNING:root:Skipping variant g.65495296_65495297del\n",
-      "WARNING:root:Skipping variant g.64590909dup\n",
-      "WARNING:root:Skipping variant g.65384473dup\n",
-      "WARNING:root:Skipping variant g.65405287del\n",
-      "WARNING:root:Skipping variant g.65494885_65494887del\n",
-      "WARNING:root:Skipping variant g.63762589del\n",
-      "WARNING:root:Skipping variant g.63720874del\n",
-      "WARNING:root:Skipping variant g.63721619_63721620insGT\n",
-      "WARNING:root:Skipping variant g.63788268dup\n",
-      "WARNING:root:Skipping variant g.63984369_63984392del\n",
-      "WARNING:root:Skipping variant g.65057740_65057741insA\n",
-      "WARNING:root:Skipping variant g.65057740_65057741insAA\n",
-      "WARNING:root:Skipping variant g.65057750dup\n",
-      "WARNING:root:Skipping variant g.65384384_65384387del\n",
-      "WARNING:root:Skipping variant g.65402624dup\n",
-      "WARNING:root:Skipping variant g.65405377dup\n",
-      "WARNING:root:Skipping variant g.65494957dup\n",
-      "WARNING:root:Skipping variant g.65494957dup\n",
-      "WARNING:root:Skipping variant g.65495379dup\n",
-      "WARNING:root:Skipping variant g.63721625dup\n",
-      "WARNING:root:Skipping variant g.63721704dup\n",
-      "WARNING:root:Skipping variant g.65353537dup\n",
-      "WARNING:root:Skipping variant g.65335105_65335108del\n",
-      "WARNING:root:Skipping variant g.63721385_63721386del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64439195del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.63720867_63720868del\n",
-      "WARNING:root:Skipping variant g.63721314_63721321del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63765706_63791377del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63781919_63803805del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64892926_64948294del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64591845del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64945857dup\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.63721557_63721558insA\n",
-      "WARNING:root:Skipping variant g.64439319_64439323del\n",
-      "WARNING:root:Skipping variant g.65296021del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65384425del\n",
-      "WARNING:root:Skipping variant g.64591039_64591042del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63721599_63721604del\n",
-      "WARNING:root:Skipping variant g.64902132_64902133del\n",
-      "WARNING:root:Skipping variant g.65494988_65495008delinsAAAAG\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65495236del\n",
-      "WARNING:root:Skipping variant g.64590908_64590909insT\n",
-      "WARNING:root:Skipping variant g.64617409_64617411dup\n",
-      "WARNING:root:Skipping variant g.65295857dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.63720845_63720846del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63720668dup\n",
-      "WARNING:root:Skipping variant g.(63741975_63762461)_(63778180_63788105)dup\n",
-      "WARNING:root:Skipping variant g.65296051_65296052del\n",
-      "WARNING:root:Skipping variant g.65296051_65296052del\n",
-      "WARNING:root:Skipping variant g.64439200dup\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.65494885_65494887del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63984390del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.65295897del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65494885_65494887del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590615dup\n",
-      "WARNING:root:Skipping variant g.63721705del\n",
-      "WARNING:root:Skipping variant g.64081884del\n",
-      "WARNING:root:Skipping variant g.65405342_65405355delinsAAA\n",
-      "WARNING:root:Skipping variant g.65490640_65490643dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65296058del\n",
-      "WARNING:root:Skipping variant g.65405345del\n",
-      "WARNING:root:Skipping variant g.(65405368_65490593)_(65495411_?)del\n",
-      "WARNING:root:Skipping variant g.(65353618_65384385)_(65405368_65490593)del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64081885_64081888del\n",
-      "WARNING:root:Skipping variant g.64591401_64591408dup\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.63721237_63721240del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64591256_64591272del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.63721436del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64591039_64591042del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.63720695_63720714del\n",
-      "WARNING:root:Skipping variant g.65384480dup\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.65495064del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.64066470_64066473del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.64066470_64066473del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.63720695_63720714del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63720668del\n",
-      "WARNING:root:Skipping variant g.64912603dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.63720730_63720733del\n",
-      "WARNING:root:Skipping variant g.64902132_64902133del\n",
-      "WARNING:root:Skipping variant g.63720954dup\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64066335del\n",
-      "WARNING:root:Skipping variant g.64886711del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.63778166_63778172del\n",
-      "WARNING:root:Skipping variant g.64590914dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63726618_63726622del\n",
-      "WARNING:root:Skipping variant g.64886728_64886736del\n",
-      "WARNING:root:Skipping variant g.64893157_64947352del\n",
-      "WARNING:root:Skipping variant g.64797009_64846087del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.63726519del\n",
-      "WARNING:root:Skipping variant g.64997275_64998015del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64081605_64082252del\n",
-      "WARNING:root:Skipping variant g.63777755_63789474dup\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.64081605_64082252del\n",
-      "WARNING:root:Skipping variant g.65353208_65353867del\n",
-      "WARNING:root:Skipping variant g.63984134_63984854del\n",
-      "WARNING:root:Skipping variant g.63743557_63907234del\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.64662532_64979780del\n",
-      "WARNING:root:Skipping variant g.64839119_64970113del\n",
-      "WARNING:root:Skipping variant g.63720872_63720873del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64081885_64081888del\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.63720682dup\n",
-      "WARNING:root:Skipping variant g.63721619dup\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64388841del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.63720649_63720653del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.63720695_63720714del\n",
-      "WARNING:root:Skipping variant g.65384384_65384387del\n",
-      "WARNING:root:Skipping variant g.63720730_63720733del\n",
-      "WARNING:root:Skipping variant g.65335105_65335108del\n",
-      "WARNING:root:Skipping variant g.64439165del\n",
-      "WARNING:root:Skipping variant g.63999116del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63998527_64002156del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.65495379dup\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63720730_63720733del\n",
-      "WARNING:root:Skipping variant g.63720730_63720733del\n",
-      "WARNING:root:Skipping variant g.63721237_63721240del\n",
-      "WARNING:root:Skipping variant g.63721237_63721240del\n",
-      "WARNING:root:Skipping variant g.63721237_63721240del\n",
-      "WARNING:root:Skipping variant g.64081885_64081888del\n",
-      "WARNING:root:Skipping variant g.65495348dup\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64439331del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64912705del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64439200dup\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.65495181del\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.63721625dup\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.65384480del\n",
-      "WARNING:root:Skipping variant g.64388841_64388843del\n",
-      "WARNING:root:Skipping variant g.63998527_64002156del\n",
-      "WARNING:root:Skipping variant g.64590525_64590550delinsTA\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64081884del\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.216327637C>T\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.215879068C>T\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.215878931del\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.65384480dup\n",
-      "WARNING:root:Skipping variant g.216073265G>A\n",
-      "WARNING:root:Skipping variant g.65495206_65495207insTGCCAGTTTA\n",
-      "WARNING:root:Skipping variant g.63721227dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.63720990_63720991insATAT\n",
-      "WARNING:root:Skipping variant g.63720728_63720729del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63720947_63720948insT\n",
-      "WARNING:root:Skipping variant g.64590875_64590876insTCTT\n",
-      "WARNING:root:Skipping variant g.63721432del\n",
-      "WARNING:root:Skipping variant g.64591501_64591502insAGAA\n",
-      "WARNING:root:Skipping variant g.64590556_64590566del\n",
-      "WARNING:root:Skipping variant g.63999116del\n",
-      "WARNING:root:Skipping variant g.63720753_63720754dup\n",
-      "WARNING:root:Skipping variant g.(?_64945792)_(64945915_64997581)del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63720730_63720733del\n",
-      "WARNING:root:Skipping variant g.63721377_63721384del\n",
-      "WARNING:root:Skipping variant g.63726524del\n",
-      "WARNING:root:Skipping variant g.64423168_64798957delinsATGA\n",
-      "WARNING:root:Skipping variant g.63942752_64337822delinsATTATG\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant g.?\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64423168_64798957delinsATGA\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63942752_64337822delinsATTATG\n",
-      "WARNING:root:Skipping variant g.63957115_63958454del\n",
-      "WARNING:root:Skipping variant g.65001113_65005820del\n",
-      "WARNING:root:Skipping variant g.65550144_65552138del\n",
-      "WARNING:root:Skipping variant g.65689153_65694794del\n",
-      "WARNING:root:Skipping variant g.65454073_65454074insN[305]\n",
-      "WARNING:root:Skipping variant g.64296539_64296632del\n",
-      "WARNING:root:Skipping variant g.65204982_65205044del\n",
-      "WARNING:root:Skipping variant g.65564961_65565284del\n",
-      "WARNING:root:Skipping variant :g.64295412_64295413insN[118]\n",
-      "WARNING:root:Skipping variant g.65278328_65278329insN[59]\n",
-      "WARNING:root:Skipping variant g.64590911dup\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64590875_64590876insTCTT\n",
-      "WARNING:root:Skipping variant g.63720947_63720948insT\n",
-      "WARNING:root:Skipping variant g.64591501_64591502insAGAA\n",
-      "WARNING:root:Skipping variant g.63721432del\n",
-      "WARNING:root:Skipping variant g.64590556_64590566del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.65658176_65718924del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant NM_001142800.2:c.6079-2A>G\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.63999116del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.64986218_65013355del\n",
-      "WARNING:root:Skipping variant g.64388690_64388840del\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant g.(?_63719980)_(63726681_63762460)dup\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.65274506_65316845delinsAGATCA\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.65494100_65508832del\n",
-      "WARNING:root:Skipping variant g.65213025_65296862delinsGTTTTCTTTTTA\n",
-      "WARNING:root:Skipping variant g.64066349del\n",
-      "WARNING:root:Skipping variant g.64602159_64657461dup\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63762589del\n",
-      "WARNING:root:Skipping variant g.65383303_65441305delinsAACTTTTACT\n",
-      "WARNING:root:Skipping variant g.63720737_63720746del\n",
-      "WARNING:root:Skipping variant g.65284957_66872862delinsT\n",
-      "WARNING:root:Skipping variant g.64122444_64129159delins64204448_64235506inv\n",
-      "WARNING:root:Skipping variant g.64937848_64948401delins[64944099_64944163inv;CAATTTTGTAT]\n",
-      "WARNING:root:Skipping variant g.63721385_63721386del\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63720654_63720657del\n",
-      "WARNING:root:Skipping variant g.64591069_64591081del\n",
-      "WARNING:root:Skipping variant g.64886841del\n",
-      "WARNING:root:Skipping variant g.64790603_64977512del\n",
-      "WARNING:root:Skipping variant g.63721625dup\n",
-      "WARNING:root:Skipping variant g.64591514_64591520del\n",
-      "WARNING:root:Skipping variant g.63720649_63720653del\n",
-      "WARNING:root:Skipping variant g.65479942_67131267inv\n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n",
-      "WARNING:root:Skipping variant \n"
+      "Genes\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 1 entries, 0 to 0\n",
+      "Data columns (total 34 columns):\n",
+      " #   Column           Non-Null Count  Dtype         \n",
+      "---  ------           --------------  -----         \n",
+      " 0   id               1 non-null      string        \n",
+      " 1   name             1 non-null      string        \n",
+      " 2   chromosome       1 non-null      Int64         \n",
+      " 3   chrom_band       1 non-null      string        \n",
+      " 4   imprinting       1 non-null      string        \n",
+      " 5   refseq_genomic   1 non-null      string        \n",
+      " 6   refseq_UD        1 non-null      string        \n",
+      " 7   reference        1 non-null      string        \n",
+      " 8   url_homepage     1 non-null      string        \n",
+      " 9   url_external     1 non-null      string        \n",
+      " 10  allow_download   1 non-null      bool          \n",
+      " 11  id_hgnc          1 non-null      Int64         \n",
+      " 12  id_entrez        1 non-null      Int64         \n",
+      " 13  id_omim          1 non-null      Int64         \n",
+      " 14  show_hgmd        1 non-null      bool          \n",
+      " 15  show_genecards   1 non-null      bool          \n",
+      " 16  show_genetests   1 non-null      bool          \n",
+      " 17  show_orphanet    1 non-null      bool          \n",
+      " 18  note_index       1 non-null      string        \n",
+      " 19  note_listing     1 non-null      string        \n",
+      " 20  refseq           1 non-null      string        \n",
+      " 21  refseq_url       1 non-null      string        \n",
+      " 22  disclaimer       1 non-null      bool          \n",
+      " 23  disclaimer_text  1 non-null      string        \n",
+      " 24  header           1 non-null      string        \n",
+      " 25  header_align     1 non-null      Int64         \n",
+      " 26  footer           1 non-null      string        \n",
+      " 27  footer_align     1 non-null      Int64         \n",
+      " 28  created_by       1 non-null      Int64         \n",
+      " 29  created_date     1 non-null      datetime64[ns]\n",
+      " 30  edited_by        1 non-null      Int64         \n",
+      " 31  edited_date      1 non-null      datetime64[ns]\n",
+      " 32  updated_by       1 non-null      Int64         \n",
+      " 33  updated_date     1 non-null      datetime64[ns]\n",
+      "dtypes: Int64(9), bool(6), datetime64[ns](3), string(16)\n",
+      "memory usage: 371.0 bytes\n"
      ]
-    }
-   ],
-   "source": [
-    "save_lovd_as_vcf(data[\"Variants_On_Genome\"], \"./lovd.vcf\")"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 4,
-   "id": "c7ff16903e0c52bd",
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-05-13T15:58:47.868055Z",
-     "start_time": "2024-05-13T15:58:41.380466Z"
-    }
-   },
-   "outputs": [
+    },
     {
-     "name": "stderr",
+     "data": {
+      "text/plain": [
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
      "output_type": "stream",
      "text": [
-      "2024-05-13 18:58:41.794056: I tensorflow/core/util/port.cc:113] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.\n",
-      "2024-05-13 18:58:41.794769: I external/local_tsl/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.\n",
-      "2024-05-13 18:58:41.797917: I external/local_tsl/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.\n",
-      "2024-05-13 18:58:41.857361: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.\n",
-      "To enable the following instructions: AVX2 AVX_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.\n",
-      "2024-05-13 18:58:42.410244: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Could not find TensorRT\n",
-      "2024-05-13 18:58:42.957291: I external/local_xla/xla/stream_executor/cuda/cuda_executor.cc:998] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero. See more at https://github.com/torvalds/linux/blob/v6.0/Documentation/ABI/testing/sysfs-bus-pci#L344-L355\n",
-      "2024-05-13 18:58:42.957684: W tensorflow/core/common_runtime/gpu/gpu_device.cc:2251] Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are installed properly if you would like to use GPU. Follow the guide at https://www.tensorflow.org/install/gpu for how to download and setup the required libraries for your platform.\n",
-      "Skipping registering GPU devices...\n",
-      "WARNING:absl:No training configuration found in the save file, so the model was *not* compiled. Compile it manually.\n",
-      "WARNING:absl:No training configuration found in the save file, so the model was *not* compiled. Compile it manually.\n",
-      "WARNING:absl:No training configuration found in the save file, so the model was *not* compiled. Compile it manually.\n",
-      "WARNING:absl:No training configuration found in the save file, so the model was *not* compiled. Compile it manually.\n",
-      "WARNING:absl:No training configuration found in the save file, so the model was *not* compiled. Compile it manually.\n"
+      "Transcripts\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 1 entries, 0 to 0\n",
+      "Data columns (total 19 columns):\n",
+      " #   Column                 Non-Null Count  Dtype         \n",
+      "---  ------                 --------------  -----         \n",
+      " 0   id                     1 non-null      Int64         \n",
+      " 1   geneid                 1 non-null      string        \n",
+      " 2   name                   1 non-null      string        \n",
+      " 3   id_mutalyzer           1 non-null      Int64         \n",
+      " 4   id_ncbi                1 non-null      string        \n",
+      " 5   id_ensembl             1 non-null      string        \n",
+      " 6   id_protein_ncbi        1 non-null      string        \n",
+      " 7   id_protein_ensembl     1 non-null      string        \n",
+      " 8   id_protein_uniprot     1 non-null      string        \n",
+      " 9   remarks                1 non-null      string        \n",
+      " 10  position_c_mrna_start  1 non-null      Int64         \n",
+      " 11  position_c_mrna_end    1 non-null      Int64         \n",
+      " 12  position_c_cds_end     1 non-null      Int64         \n",
+      " 13  position_g_mrna_start  1 non-null      Int64         \n",
+      " 14  position_g_mrna_end    1 non-null      Int64         \n",
+      " 15  created_by             0 non-null      Int64         \n",
+      " 16  created_date           0 non-null      datetime64[ns]\n",
+      " 17  edited_by              0 non-null      Int64         \n",
+      " 18  edited_date            0 non-null      datetime64[ns]\n",
+      "dtypes: Int64(9), datetime64[ns](2), string(8)\n",
+      "memory usage: 293.0 bytes\n"
      ]
     },
+    {
+     "data": {
+      "text/plain": [
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m1s\u001B[0m 595ms/step\n",
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m1s\u001B[0m 554ms/step\n",
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m1s\u001B[0m 553ms/step\n",
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m1s\u001B[0m 548ms/step\n"
+      "Diseases\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 15 entries, 0 to 14\n",
+      "Data columns (total 12 columns):\n",
+      " #   Column        Non-Null Count  Dtype         \n",
+      "---  ------        --------------  -----         \n",
+      " 0   id            15 non-null     Int64         \n",
+      " 1   symbol        15 non-null     string        \n",
+      " 2   name          15 non-null     string        \n",
+      " 3   inheritance   15 non-null     string        \n",
+      " 4   id_omim       4 non-null      Int64         \n",
+      " 5   tissues       15 non-null     string        \n",
+      " 6   features      15 non-null     string        \n",
+      " 7   remarks       15 non-null     string        \n",
+      " 8   created_by    15 non-null     Int64         \n",
+      " 9   created_date  15 non-null     datetime64[ns]\n",
+      " 10  edited_by     11 non-null     Int64         \n",
+      " 11  edited_date   11 non-null     datetime64[ns]\n",
+      "dtypes: Int64(4), datetime64[ns](2), string(6)\n",
+      "memory usage: 1.6 KB\n"
      ]
     },
     {
-     "name": "stderr",
+     "data": {
+      "text/plain": [
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
      "output_type": "stream",
      "text": [
-      "WARNING:tensorflow:5 out of the last 5 calls to <function TensorFlowTrainer.make_predict_function.<locals>.one_step_on_data_distributed at 0x7dee981abf40> triggered tf.function retracing. Tracing is expensive and the excessive number of tracings could be due to (1) creating @tf.function repeatedly in a loop, (2) passing tensors with different shapes, (3) passing Python objects instead of tensors. For (1), please define your @tf.function outside of the loop. For (2), @tf.function has reduce_retracing=True option that can avoid unnecessary retracing. For (3), please refer to https://www.tensorflow.org/guide/function#controlling_retracing and https://www.tensorflow.org/api_docs/python/tf/function for  more details.\n",
-      "WARNING:tensorflow:5 out of the last 5 calls to <function TensorFlowTrainer.make_predict_function.<locals>.one_step_on_data_distributed at 0x7dee981abf40> triggered tf.function retracing. Tracing is expensive and the excessive number of tracings could be due to (1) creating @tf.function repeatedly in a loop, (2) passing tensors with different shapes, (3) passing Python objects instead of tensors. For (1), please define your @tf.function outside of the loop. For (2), @tf.function has reduce_retracing=True option that can avoid unnecessary retracing. For (3), please refer to https://www.tensorflow.org/guide/function#controlling_retracing and https://www.tensorflow.org/api_docs/python/tf/function for  more details.\n"
+      "Genes_To_Diseases\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 2 entries, 0 to 1\n",
+      "Data columns (total 2 columns):\n",
+      " #   Column     Non-Null Count  Dtype \n",
+      "---  ------     --------------  ----- \n",
+      " 0   geneid     2 non-null      string\n",
+      " 1   diseaseid  2 non-null      Int64 \n",
+      "dtypes: Int64(1), string(1)\n",
+      "memory usage: 166.0 bytes\n"
      ]
     },
+    {
+     "data": {
+      "text/plain": [
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m1s\u001B[0m 548ms/step\n",
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m0s\u001B[0m 49ms/step\n",
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m0s\u001B[0m 51ms/step\n",
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m0s\u001B[0m 51ms/step\n",
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m0s\u001B[0m 59ms/step\n",
-      "\u001B[1m1/1\u001B[0m \u001B[32m━━━━━━━━━━━━━━━━━━━━\u001B[0m\u001B[37m\u001B[0m \u001B[1m0s\u001B[0m 53ms/step\n"
+      "Individuals\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 1465 entries, 0 to 1464\n",
+      "Data columns (total 18 columns):\n",
+      " #   Column                        Non-Null Count  Dtype \n",
+      "---  ------                        --------------  ----- \n",
+      " 0   id                            1465 non-null   Int64 \n",
+      " 1   fatherid                      1465 non-null   string\n",
+      " 2   motherid                      1465 non-null   string\n",
+      " 3   panelid                       6 non-null      Int64 \n",
+      " 4   panel_size                    1465 non-null   Int64 \n",
+      " 5   license                       1465 non-null   string\n",
+      " 6   owned_by                      1465 non-null   Int64 \n",
+      " 7   Individual/Reference          1465 non-null   string\n",
+      " 8   Individual/Remarks            1465 non-null   string\n",
+      " 9   Individual/Gender             1465 non-null   string\n",
+      " 10  Individual/Consanguinity      1465 non-null   string\n",
+      " 11  Individual/Origin/Geographic  1465 non-null   string\n",
+      " 12  Individual/Age_of_death       1465 non-null   string\n",
+      " 13  Individual/VIP                1465 non-null   string\n",
+      " 14  Individual/Data_av            1465 non-null   string\n",
+      " 15  Individual/Treatment          1465 non-null   string\n",
+      " 16  Individual/Origin/Population  1465 non-null   string\n",
+      " 17  Individual/Individual_ID      1465 non-null   string\n",
+      "dtypes: Int64(4), string(14)\n",
+      "memory usage: 211.9 KB\n"
      ]
     },
     {
-     "name": "stderr",
+     "data": {
+      "text/plain": [
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
      "output_type": "stream",
      "text": [
-      "WARNING:root:dede['G|EYS|0.00|0.00|0.00|0.00|3|9|-20|9']\n"
+      "Individuals_To_Diseases\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 1464 entries, 0 to 1463\n",
+      "Data columns (total 2 columns):\n",
+      " #   Column        Non-Null Count  Dtype\n",
+      "---  ------        --------------  -----\n",
+      " 0   individualid  1464 non-null   Int64\n",
+      " 1   diseaseid     1464 non-null   Int64\n",
+      "dtypes: Int64(2)\n",
+      "memory usage: 25.9 KB\n"
      ]
     },
     {
      "data": {
       "text/plain": [
-       "0"
+       "None"
       ]
      },
-     "execution_count": 4,
      "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "source": [
-    "from subprocess import Popen\n",
-    "\n",
-    "\n",
-    "process = Popen(\"spliceai -I ./lovd.vcf -O ./lovd_output.vcf -R ../tools/spliceai/hg38.fa -A grch38\".split())\n",
-    "process.wait()"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 1,
-   "id": "0514ccc3-5c91-41ad-ab15-f4158030ea14",
-   "metadata": {},
-   "outputs": [
+     "output_type": "display_data"
+    },
     {
-     "name": "stderr",
+     "name": "stdout",
      "output_type": "stream",
      "text": [
-      "/home/nojsaj/kath/tools/revel/revel.py:9: DtypeWarning: Columns (0,2) have mixed types. Specify dtype option on import or set low_memory=False.\n",
-      "  revel_data = pd.read_csv(revel_file)\n"
+      "Phenotypes\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 1277 entries, 0 to 1276\n",
+      "Data columns (total 20 columns):\n",
+      " #   Column                        Non-Null Count  Dtype \n",
+      "---  ------                        --------------  ----- \n",
+      " 0   id                            1277 non-null   Int64 \n",
+      " 1   diseaseid                     1277 non-null   Int64 \n",
+      " 2   individualid                  1277 non-null   Int64 \n",
+      " 3   owned_by                      1277 non-null   Int64 \n",
+      " 4   Phenotype/Inheritance         1277 non-null   string\n",
+      " 5   Phenotype/Age                 1277 non-null   string\n",
+      " 6   Phenotype/Additional          1277 non-null   string\n",
+      " 7   Phenotype/Biochem_param       1277 non-null   string\n",
+      " 8   Phenotype/Age/Onset           1277 non-null   string\n",
+      " 9   Phenotype/Age/Diagnosis       1277 non-null   string\n",
+      " 10  Phenotype/Severity_score      1277 non-null   string\n",
+      " 11  Phenotype/Onset               1277 non-null   string\n",
+      " 12  Phenotype/Protein             1277 non-null   string\n",
+      " 13  Phenotype/Tumor/MSI           1277 non-null   string\n",
+      " 14  Phenotype/Enzyme/CPK          1277 non-null   string\n",
+      " 15  Phenotype/Heart/Myocardium    1277 non-null   string\n",
+      " 16  Phenotype/Lung                1277 non-null   string\n",
+      " 17  Phenotype/Diagnosis/Definite  1277 non-null   string\n",
+      " 18  Phenotype/Diagnosis/Initial   1277 non-null   string\n",
+      " 19  Phenotype/Diagnosis/Criteria  1277 non-null   string\n",
+      "dtypes: Int64(4), string(16)\n",
+      "memory usage: 204.6 KB\n"
      ]
     },
     {
      "data": {
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>chr</th>\n",
-       "      <th>hg19_pos</th>\n",
-       "      <th>grch38_pos</th>\n",
-       "      <th>ref</th>\n",
-       "      <th>alt</th>\n",
-       "      <th>aaref</th>\n",
-       "      <th>aaalt</th>\n",
-       "      <th>REVEL</th>\n",
-       "      <th>Ensembl_transcriptid</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>28756127</th>\n",
-       "      <td>6</td>\n",
-       "      <td>65655758</td>\n",
-       "      <td>64945865</td>\n",
-       "      <td>T</td>\n",
-       "      <td>A</td>\n",
-       "      <td>Q</td>\n",
-       "      <td>L</td>\n",
-       "      <td>0.188</td>\n",
-       "      <td>ENST00000503581;ENST00000370621;ENST00000370616</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>28756128</th>\n",
-       "      <td>6</td>\n",
-       "      <td>65655758</td>\n",
-       "      <td>64945865</td>\n",
-       "      <td>T</td>\n",
-       "      <td>C</td>\n",
-       "      <td>Q</td>\n",
-       "      <td>R</td>\n",
-       "      <td>0.111</td>\n",
-       "      <td>ENST00000503581;ENST00000370621;ENST00000370616</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>28756129</th>\n",
-       "      <td>6</td>\n",
-       "      <td>65655758</td>\n",
-       "      <td>64945865</td>\n",
-       "      <td>T</td>\n",
-       "      <td>G</td>\n",
-       "      <td>Q</td>\n",
-       "      <td>P</td>\n",
-       "      <td>0.344</td>\n",
-       "      <td>ENST00000503581;ENST00000370621;ENST00000370616</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ],
       "text/plain": [
-       "         chr  hg19_pos grch38_pos ref alt aaref aaalt  REVEL  \\\n",
-       "28756127   6  65655758   64945865   T   A     Q     L  0.188   \n",
-       "28756128   6  65655758   64945865   T   C     Q     R  0.111   \n",
-       "28756129   6  65655758   64945865   T   G     Q     P  0.344   \n",
-       "\n",
-       "                                     Ensembl_transcriptid  \n",
-       "28756127  ENST00000503581;ENST00000370621;ENST00000370616  \n",
-       "28756128  ENST00000503581;ENST00000370621;ENST00000370616  \n",
-       "28756129  ENST00000503581;ENST00000370621;ENST00000370616  "
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Screenings\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 1465 entries, 0 to 1464\n",
+      "Data columns (total 12 columns):\n",
+      " #   Column               Non-Null Count  Dtype         \n",
+      "---  ------               --------------  -----         \n",
+      " 0   id                   1465 non-null   Int64         \n",
+      " 1   individualid         1465 non-null   Int64         \n",
+      " 2   variants_found       1465 non-null   Int64         \n",
+      " 3   owned_by             1465 non-null   Int64         \n",
+      " 4   created_by           1465 non-null   Int64         \n",
+      " 5   created_date         1465 non-null   datetime64[ns]\n",
+      " 6   edited_by            15 non-null     Int64         \n",
+      " 7   edited_date          15 non-null     datetime64[ns]\n",
+      " 8   Screening/Technique  1465 non-null   string        \n",
+      " 9   Screening/Template   1465 non-null   string        \n",
+      " 10  Screening/Tissue     1465 non-null   string        \n",
+      " 11  Screening/Remarks    1465 non-null   string        \n",
+      "dtypes: Int64(6), datetime64[ns](2), string(4)\n",
+      "memory usage: 146.1 KB\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Screenings_To_Genes\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 1316 entries, 0 to 1315\n",
+      "Data columns (total 2 columns):\n",
+      " #   Column       Non-Null Count  Dtype \n",
+      "---  ------       --------------  ----- \n",
+      " 0   screeningid  1316 non-null   Int64 \n",
+      " 1   geneid       1316 non-null   string\n",
+      "dtypes: Int64(1), string(1)\n",
+      "memory usage: 22.0 KB\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Variants_On_Genome\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 2560 entries, 0 to 2559\n",
+      "Data columns (total 26 columns):\n",
+      " #   Column                                         Non-Null Count  Dtype  \n",
+      "---  ------                                         --------------  -----  \n",
+      " 0   id                                             2560 non-null   Int64  \n",
+      " 1   allele                                         2560 non-null   Int64  \n",
+      " 2   effectid                                       2560 non-null   Int64  \n",
+      " 3   chromosome                                     2560 non-null   Int64  \n",
+      " 4   position_g_start                               2559 non-null   Int64  \n",
+      " 5   position_g_end                                 2559 non-null   Int64  \n",
+      " 6   type                                           2560 non-null   string \n",
+      " 7   average_frequency                              2559 non-null   float64\n",
+      " 8   owned_by                                       2560 non-null   Int64  \n",
+      " 9   VariantOnGenome/DBID                           2560 non-null   string \n",
+      " 10  VariantOnGenome/DNA                            2560 non-null   string \n",
+      " 11  VariantOnGenome/Frequency                      2560 non-null   string \n",
+      " 12  VariantOnGenome/Reference                      2560 non-null   string \n",
+      " 13  VariantOnGenome/Restriction_site               2560 non-null   string \n",
+      " 14  VariantOnGenome/Published_as                   2560 non-null   string \n",
+      " 15  VariantOnGenome/Remarks                        2560 non-null   string \n",
+      " 16  VariantOnGenome/Genetic_origin                 2560 non-null   string \n",
+      " 17  VariantOnGenome/Segregation                    2560 non-null   string \n",
+      " 18  VariantOnGenome/dbSNP                          2560 non-null   string \n",
+      " 19  VariantOnGenome/VIP                            2560 non-null   string \n",
+      " 20  VariantOnGenome/Methylation                    2560 non-null   string \n",
+      " 21  VariantOnGenome/ISCN                           2560 non-null   string \n",
+      " 22  VariantOnGenome/DNA/hg38                       2560 non-null   string \n",
+      " 23  VariantOnGenome/ClinVar                        2560 non-null   string \n",
+      " 24  VariantOnGenome/ClinicalClassification         2560 non-null   string \n",
+      " 25  VariantOnGenome/ClinicalClassification/Method  2560 non-null   string \n",
+      "dtypes: Int64(7), float64(1), string(18)\n",
+      "memory usage: 537.6 KB\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Variants_On_Transcripts\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 2560 entries, 0 to 2559\n",
+      "Data columns (total 11 columns):\n",
+      " #   Column                       Non-Null Count  Dtype \n",
+      "---  ------                       --------------  ----- \n",
+      " 0   id                           2560 non-null   Int64 \n",
+      " 1   transcriptid                 2560 non-null   Int64 \n",
+      " 2   effectid                     2560 non-null   Int64 \n",
+      " 3   position_c_start             2559 non-null   Int64 \n",
+      " 4   position_c_start_intron      2560 non-null   Int64 \n",
+      " 5   position_c_end               2559 non-null   Int64 \n",
+      " 6   position_c_end_intron        2560 non-null   Int64 \n",
+      " 7   VariantOnTranscript/DNA      2560 non-null   string\n",
+      " 8   VariantOnTranscript/RNA      2560 non-null   string\n",
+      " 9   VariantOnTranscript/Protein  2560 non-null   string\n",
+      " 10  VariantOnTranscript/Exon     2560 non-null   string\n",
+      "dtypes: Int64(7), string(4)\n",
+      "memory usage: 237.6 KB\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "None"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Screenings_To_Variants\n",
+      "<class 'pandas.core.frame.DataFrame'>\n",
+      "RangeIndex: 2168 entries, 0 to 2167\n",
+      "Data columns (total 2 columns):\n",
+      " #   Column       Non-Null Count  Dtype\n",
+      "---  ------       --------------  -----\n",
+      " 0   screeningid  2168 non-null   Int64\n",
+      " 1   variantid    2168 non-null   Int64\n",
+      "dtypes: Int64(2)\n",
+      "memory usage: 38.2 KB\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "None"
       ]
      },
      "metadata": {},
      "output_type": "display_data"
     }
    ],
+   "execution_count": 45
+  },
+  {
+   "cell_type": "code",
+   "id": "c968af1617be40db",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-07-31T14:38:52.601560Z",
+     "start_time": "2024-07-31T14:38:52.346875Z"
+    }
+   },
+   "source": [
+    "save_lovd_as_vcf(data[\"Variants_On_Genome\"], \"./lovd.vcf\")"
+   ],
+   "outputs": [
+    {
+     "ename": "KeyError",
+     "evalue": "'Variants_On_Genome'",
+     "output_type": "error",
+     "traceback": [
+      "\u001B[1;31m---------------------------------------------------------------------------\u001B[0m",
+      "\u001B[1;31mKeyError\u001B[0m                                  Traceback (most recent call last)",
+      "File \u001B[1;32m~\\PycharmProjects\\kath\\venv\\Lib\\site-packages\\pandas\\core\\indexes\\base.py:3805\u001B[0m, in \u001B[0;36mIndex.get_loc\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   3804\u001B[0m \u001B[38;5;28;01mtry\u001B[39;00m:\n\u001B[1;32m-> 3805\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43m_engine\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mget_loc\u001B[49m\u001B[43m(\u001B[49m\u001B[43mcasted_key\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   3806\u001B[0m \u001B[38;5;28;01mexcept\u001B[39;00m \u001B[38;5;167;01mKeyError\u001B[39;00m \u001B[38;5;28;01mas\u001B[39;00m err:\n",
+      "File \u001B[1;32mindex.pyx:167\u001B[0m, in \u001B[0;36mpandas._libs.index.IndexEngine.get_loc\u001B[1;34m()\u001B[0m\n",
+      "File \u001B[1;32mindex.pyx:196\u001B[0m, in \u001B[0;36mpandas._libs.index.IndexEngine.get_loc\u001B[1;34m()\u001B[0m\n",
+      "File \u001B[1;32mpandas\\\\_libs\\\\hashtable_class_helper.pxi:7081\u001B[0m, in \u001B[0;36mpandas._libs.hashtable.PyObjectHashTable.get_item\u001B[1;34m()\u001B[0m\n",
+      "File \u001B[1;32mpandas\\\\_libs\\\\hashtable_class_helper.pxi:7089\u001B[0m, in \u001B[0;36mpandas._libs.hashtable.PyObjectHashTable.get_item\u001B[1;34m()\u001B[0m\n",
+      "\u001B[1;31mKeyError\u001B[0m: 'Variants_On_Genome'",
+      "\nThe above exception was the direct cause of the following exception:\n",
+      "\u001B[1;31mKeyError\u001B[0m                                  Traceback (most recent call last)",
+      "Cell \u001B[1;32mIn[46], line 1\u001B[0m\n\u001B[1;32m----> 1\u001B[0m \u001B[43msave_lovd_as_vcf\u001B[49m\u001B[43m(\u001B[49m\u001B[43mdata\u001B[49m\u001B[43m[\u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mVariants_On_Genome\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m]\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43m./lovd.vcf\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m)\u001B[49m\n",
+      "File \u001B[1;32m~\\PycharmProjects\\kath\\api\\data\\refactoring.py:140\u001B[0m, in \u001B[0;36msave_lovd_as_vcf\u001B[1;34m(data, save_to)\u001B[0m\n\u001B[0;32m    134\u001B[0m \u001B[38;5;28;01mdef\u001B[39;00m \u001B[38;5;21msave_lovd_as_vcf\u001B[39m(data, save_to\u001B[38;5;241m=\u001B[39m\u001B[38;5;124m\"\u001B[39m\u001B[38;5;124m./lovd.vcf\u001B[39m\u001B[38;5;124m\"\u001B[39m):\n\u001B[0;32m    135\u001B[0m \u001B[38;5;250m    \u001B[39m\u001B[38;5;124;03m\"\"\"\u001B[39;00m\n\u001B[0;32m    136\u001B[0m \u001B[38;5;124;03m    Gets hg38 variants from LOVD and saves as VCF file.\u001B[39;00m\n\u001B[0;32m    137\u001B[0m \u001B[38;5;124;03m    :param DataFrame data: LOVD DataFrame with data\u001B[39;00m\n\u001B[0;32m    138\u001B[0m \u001B[38;5;124;03m    :param str save_to: path where to save VCF file.\u001B[39;00m\n\u001B[0;32m    139\u001B[0m \u001B[38;5;124;03m    \"\"\"\u001B[39;00m\n\u001B[1;32m--> 140\u001B[0m     df \u001B[38;5;241m=\u001B[39m \u001B[43mdata\u001B[49m\u001B[43m[\u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mVariants_On_Genome\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m]\u001B[49m\n\u001B[0;32m    141\u001B[0m     \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mVariantOnGenome/DNA/hg38\u001B[39m\u001B[38;5;124m\"\u001B[39m \u001B[38;5;129;01mnot\u001B[39;00m \u001B[38;5;129;01min\u001B[39;00m df\u001B[38;5;241m.\u001B[39mcolumns:\n\u001B[0;32m    142\u001B[0m         \u001B[38;5;28;01mraise\u001B[39;00m \u001B[38;5;167;01mValueError\u001B[39;00m(\u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mVariantOnGenome/DNA/hg38 is not in the LOVD DataFrame.\u001B[39m\u001B[38;5;124m\"\u001B[39m)\n",
+      "File \u001B[1;32m~\\PycharmProjects\\kath\\venv\\Lib\\site-packages\\pandas\\core\\frame.py:4102\u001B[0m, in \u001B[0;36mDataFrame.__getitem__\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   4100\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39mcolumns\u001B[38;5;241m.\u001B[39mnlevels \u001B[38;5;241m>\u001B[39m \u001B[38;5;241m1\u001B[39m:\n\u001B[0;32m   4101\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_getitem_multilevel(key)\n\u001B[1;32m-> 4102\u001B[0m indexer \u001B[38;5;241m=\u001B[39m \u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mcolumns\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mget_loc\u001B[49m\u001B[43m(\u001B[49m\u001B[43mkey\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   4103\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m is_integer(indexer):\n\u001B[0;32m   4104\u001B[0m     indexer \u001B[38;5;241m=\u001B[39m [indexer]\n",
+      "File \u001B[1;32m~\\PycharmProjects\\kath\\venv\\Lib\\site-packages\\pandas\\core\\indexes\\base.py:3812\u001B[0m, in \u001B[0;36mIndex.get_loc\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   3807\u001B[0m     \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28misinstance\u001B[39m(casted_key, \u001B[38;5;28mslice\u001B[39m) \u001B[38;5;129;01mor\u001B[39;00m (\n\u001B[0;32m   3808\u001B[0m         \u001B[38;5;28misinstance\u001B[39m(casted_key, abc\u001B[38;5;241m.\u001B[39mIterable)\n\u001B[0;32m   3809\u001B[0m         \u001B[38;5;129;01mand\u001B[39;00m \u001B[38;5;28many\u001B[39m(\u001B[38;5;28misinstance\u001B[39m(x, \u001B[38;5;28mslice\u001B[39m) \u001B[38;5;28;01mfor\u001B[39;00m x \u001B[38;5;129;01min\u001B[39;00m casted_key)\n\u001B[0;32m   3810\u001B[0m     ):\n\u001B[0;32m   3811\u001B[0m         \u001B[38;5;28;01mraise\u001B[39;00m InvalidIndexError(key)\n\u001B[1;32m-> 3812\u001B[0m     \u001B[38;5;28;01mraise\u001B[39;00m \u001B[38;5;167;01mKeyError\u001B[39;00m(key) \u001B[38;5;28;01mfrom\u001B[39;00m \u001B[38;5;21;01merr\u001B[39;00m\n\u001B[0;32m   3813\u001B[0m \u001B[38;5;28;01mexcept\u001B[39;00m \u001B[38;5;167;01mTypeError\u001B[39;00m:\n\u001B[0;32m   3814\u001B[0m     \u001B[38;5;66;03m# If we have a listlike key, _check_indexing_error will raise\u001B[39;00m\n\u001B[0;32m   3815\u001B[0m     \u001B[38;5;66;03m#  InvalidIndexError. Otherwise we fall through and re-raise\u001B[39;00m\n\u001B[0;32m   3816\u001B[0m     \u001B[38;5;66;03m#  the TypeError.\u001B[39;00m\n\u001B[0;32m   3817\u001B[0m     \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_check_indexing_error(key)\n",
+      "\u001B[1;31mKeyError\u001B[0m: 'Variants_On_Genome'"
+     ]
+    }
+   ],
+   "execution_count": 46
+  },
+  {
+   "cell_type": "code",
+   "id": "c7ff16903e0c52bd",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-07-31T14:38:52.603569Z",
+     "start_time": "2024-07-31T14:38:52.602570Z"
+    }
+   },
+   "source": [
+    "from subprocess import Popen\n",
+    "\n",
+    "\n",
+    "process = Popen(\"spliceai -I ./lovd.vcf -O ./lovd_output.vcf -R ../tools/spliceai/hg38.fa -A grch38\".split())\n",
+    "process.wait()"
+   ],
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "cell_type": "code",
+   "id": "0514ccc3-5c91-41ad-ab15-f4158030ea14",
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-07-31T14:38:52.605570Z",
+     "start_time": "2024-07-31T14:38:52.604570Z"
+    }
+   },
    "source": [
-    "from tools import get_revel_scores\n",
+    "from api.tools import get_revel_scores\n",
     "\n",
     "chromosome = 6\n",
     "position = 65655758\n",
@@ -3922,7 +3007,55 @@
     "results = get_revel_scores(chromosome, position)\n",
     "\n",
     "display(results)"
-   ]
+   ],
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": [
+    "from api.data import request_clinvar_api_data\n",
+    "\n",
+    "some_id = 1519786\n",
+    "try:\n",
+    "    frame = request_clinvar_api_data(some_id)\n",
+    "    display(frame)\n",
+    "except Exception as e:\n",
+    "    print(e)\n"
+   ],
+   "id": "576b841842a7ab61",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": [
+    "import requests\n",
+    "from api.data import request_clinvar_api_data\n",
+    "\n",
+    "gene_id = '1519786'\n",
+    "# with gene_id = '1519787' error is raised\n",
+    "\n",
+    "#TODO inside request_clinvar_api_data\n",
+    "# 1. dinamically expand genes to dataframe (might be one, might be more)\n",
+    "# 2. dinamically expand variation_loc to dataframe (might be one, might be more)\n",
+    "frames = request_clinvar_api_data(gene_id)\n",
+    "\n",
+    "display(frames)"
+   ],
+   "id": "b21c3487476b684f",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": "",
+   "id": "a97fbf604bd8977b",
+   "outputs": [],
+   "execution_count": null
   }
  ],
  "metadata": {

From ea192ee7589e0069e5fcc4e1d7a34ed122eb7eeb Mon Sep 17 00:00:00 2001
From: Kajus CC <42713684+KajusC@users.noreply.github.com>
Date: Tue, 6 Aug 2024 18:02:36 +0300
Subject: [PATCH 02/10] dynamically adds variation properties

---
 api/data/refactoring.py |  67 ++++----
 tests/pipeline.ipynb    | 364 +++++++++++++++++++++++++++++++++++-----
 2 files changed, 363 insertions(+), 68 deletions(-)

diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index f7142a3..c6e82ea 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -193,50 +193,61 @@ def request_clinvar_api_data(gene_id: str):
 
         flattened_variation_set = pd.json_normalize(flattened_entry['variation_set'][0], sep='_')
         flattened_variation_xrefs = pd.json_normalize(flattened_variation_set['variation_xrefs'][0], sep='_')
-        flattened_variation_loc0 = pd.json_normalize(flattened_variation_set['variation_loc'][0][0],
-                                                     sep='_')  # 1/2 frames
-        flattened_variation_loc0 = flattened_variation_loc0.add_prefix('0_')
-        flattened_variation_loc1 = pd.json_normalize(flattened_variation_set['variation_loc'][0][1],
-                                                     sep='_')  # 2/2 frames
-        flattened_variation_loc1 = flattened_variation_loc1.add_prefix('1_')
-        flattened_allele_freq_set = pd.json_normalize(flattened_variation_set['allele_freq_set'][0], sep='_')
-
-        flattened_genes0 = pd.json_normalize(flattened_entry['genes'][0][0], sep='_')  # 1/2 frames
-        flattened_genes0 = flattened_genes0.add_prefix('0_')
-        flattened_genes1 = pd.json_normalize(flattened_entry['genes'][0][1], sep='_')  # 2/2 frames
-        flattened_genes1 = flattened_genes1.add_prefix('1_')
-
-        flattened_germline_classification_trait_set = pd.json_normalize(
-            flattened_entry['germline_classification_trait_set'][0], sep='_')
-        flattened_trait_xrefs = pd.json_normalize(flattened_germline_classification_trait_set['trait_xrefs'][0],
-                                                  sep='_')
+
+        variation_loc_size = len(flattened_variation_set['variation_loc'][0])
+        for i in range(variation_loc_size):
+            flattened_variation_loc = pd.json_normalize(flattened_variation_set['variation_loc'][0][i], sep='_')
+            flattened_variation_loc = flattened_variation_loc.add_prefix(f'{i}_')
+            flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_loc], axis=1)
+
+        allele_freq_set_size = len(flattened_variation_set['allele_freq_set'][0])
+        for i in range(allele_freq_set_size):
+            flattened_allele_freq_set = pd.json_normalize(flattened_variation_set['allele_freq_set'][0][i], sep='_')
+            flattened_allele_freq_set = flattened_allele_freq_set.add_prefix(f'{i}_')
+            flattened_variation_set = pd.concat([flattened_variation_set, flattened_allele_freq_set], axis=1)
+
+        gene_size = len(flattened_entry['genes'][0])
+        for i in range(gene_size):
+            flattened_genes = pd.json_normalize(flattened_entry['genes'][0][i], sep='_')
+            flattened_genes = flattened_genes.add_prefix(f'{i}_')
+            flattened_entry = pd.concat([flattened_entry, flattened_genes], axis=1)
+
+        gremline_classification_trait_set_size = len(flattened_entry['germline_classification_trait_set'][0])
+        for i in range(gremline_classification_trait_set_size):
+            flattened_germline_classification_trait_set = pd.json_normalize(
+                flattened_entry['germline_classification_trait_set'][0][i], sep='_')
+            flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.add_prefix(
+                f'{i}_')
+
+            trait_xrefs_size = len(flattened_germline_classification_trait_set[f'{i}_trait_xrefs'][0])
+            for j in range(trait_xrefs_size):
+                flattened_trait_xrefs = pd.json_normalize(
+                    flattened_germline_classification_trait_set[f'{i}_trait_xrefs'][0][j], sep='_')
+                flattened_trait_xrefs = flattened_trait_xrefs.add_prefix(f'{j}_')
+
+                flattened_germline_classification_trait_set = pd.concat(
+                    [flattened_germline_classification_trait_set, flattened_trait_xrefs], axis=1)
+
+            flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.drop(
+                columns=[f'{i}_trait_xrefs'], axis=1)
+            flattened_entry = pd.concat([flattened_entry, flattened_germline_classification_trait_set], axis=1)
 
         # dropping extracted nests
         flattened_entry = flattened_entry.drop(columns=['variation_set', 'genes', 'germline_classification_trait_set'],
                                                axis=1)
         flattened_variation_set = flattened_variation_set.drop(
             columns=['variation_xrefs', 'variation_loc', 'allele_freq_set'], axis=1)
-        flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.drop(
-            columns=['trait_xrefs'], axis=1)
-
-        # adding extracted nests to the frames
-        flattened_germline_classification_trait_set = pd.concat(
-            [flattened_germline_classification_trait_set, flattened_trait_xrefs], axis=1)
 
         flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_xrefs], axis=1)
-        flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_loc0], axis=1)  # might break
-        flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_loc1], axis=1)  # might break
         flattened_variation_set = pd.concat([flattened_variation_set, flattened_allele_freq_set], axis=1)
 
         flattened_entry = pd.concat([flattened_entry, flattened_variation_set], axis=1)
-        flattened_entry = pd.concat([flattened_entry, flattened_genes0], axis=1)
-        flattened_entry = pd.concat([flattened_entry, flattened_genes1], axis=1)
         flattened_entry = pd.concat([flattened_entry, flattened_germline_classification_trait_set], axis=1)
 
         # Append the flattened entry to the list
         flattened_data.append(flattened_entry)
 
-    # Concatenate all flattened entries into a single DataFrame
+        # Concatenate all flattened entries into a single DataFrame
     df = pd.concat(flattened_data, ignore_index=True)
 
     return df
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index 210a5fe..12bb5a4 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -9,8 +9,8 @@
      "outputs_hidden": true
     },
     "ExecuteTime": {
-     "end_time": "2024-07-31T14:38:44.492053Z",
-     "start_time": "2024-07-31T14:38:44.487236Z"
+     "end_time": "2024-08-06T14:19:28.871130Z",
+     "start_time": "2024-08-06T14:19:28.169833Z"
     }
    },
    "source": [
@@ -25,7 +25,7 @@
     "pd.options.display.max_columns = 0"
    ],
    "outputs": [],
-   "execution_count": 41
+   "execution_count": 3
   },
   {
    "cell_type": "code",
@@ -36,23 +36,15 @@
      "outputs_hidden": false
     },
     "ExecuteTime": {
-     "end_time": "2024-07-31T14:38:44.501624Z",
-     "start_time": "2024-07-31T14:38:44.494128Z"
+     "end_time": "2024-08-06T14:19:29.382744Z",
+     "start_time": "2024-08-06T14:19:28.873646Z"
     }
    },
    "source": [
     "store_database_for_eys_gene(\"lovd\", override=False)"
    ],
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "The file at ../data/lovd/lovd_data.txt already exists.\n"
-     ]
-    }
-   ],
-   "execution_count": 42
+   "outputs": [],
+   "execution_count": 4
   },
   {
    "cell_type": "code",
@@ -63,23 +55,23 @@
      "outputs_hidden": false
     },
     "ExecuteTime": {
-     "end_time": "2024-07-31T14:38:51.917606Z",
-     "start_time": "2024-07-31T14:38:44.502630Z"
+     "end_time": "2024-08-06T14:19:35.787015Z",
+     "start_time": "2024-08-06T14:19:29.383754Z"
     }
    },
    "source": [
     "data = parse_lovd(LOVD_PATH + \"/lovd_data.txt\")"
    ],
    "outputs": [],
-   "execution_count": 43
+   "execution_count": 5
   },
   {
    "cell_type": "code",
    "id": "8a089e29bfc8c119",
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2024-07-31T14:38:52.101863Z",
-     "start_time": "2024-07-31T14:38:51.918626Z"
+     "end_time": "2024-08-06T14:19:35.968177Z",
+     "start_time": "2024-08-06T14:19:35.788025Z"
     }
    },
    "source": [
@@ -2471,7 +2463,7 @@
      "output_type": "display_data"
     }
    ],
-   "execution_count": 44
+   "execution_count": 6
   },
   {
    "cell_type": "code",
@@ -2482,8 +2474,8 @@
      "outputs_hidden": false
     },
     "ExecuteTime": {
-     "end_time": "2024-07-31T14:38:52.345798Z",
-     "start_time": "2024-07-31T14:38:52.102870Z"
+     "end_time": "2024-08-06T14:19:36.151167Z",
+     "start_time": "2024-08-06T14:19:35.969184Z"
     }
    },
    "source": [
@@ -2930,15 +2922,15 @@
      "output_type": "display_data"
     }
    ],
-   "execution_count": 45
+   "execution_count": 7
   },
   {
    "cell_type": "code",
    "id": "c968af1617be40db",
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2024-07-31T14:38:52.601560Z",
-     "start_time": "2024-07-31T14:38:52.346875Z"
+     "end_time": "2024-08-06T14:19:36.920697Z",
+     "start_time": "2024-08-06T14:19:36.151683Z"
     }
    },
    "source": [
@@ -2952,7 +2944,7 @@
      "traceback": [
       "\u001B[1;31m---------------------------------------------------------------------------\u001B[0m",
       "\u001B[1;31mKeyError\u001B[0m                                  Traceback (most recent call last)",
-      "File \u001B[1;32m~\\PycharmProjects\\kath\\venv\\Lib\\site-packages\\pandas\\core\\indexes\\base.py:3805\u001B[0m, in \u001B[0;36mIndex.get_loc\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   3804\u001B[0m \u001B[38;5;28;01mtry\u001B[39;00m:\n\u001B[1;32m-> 3805\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43m_engine\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mget_loc\u001B[49m\u001B[43m(\u001B[49m\u001B[43mcasted_key\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   3806\u001B[0m \u001B[38;5;28;01mexcept\u001B[39;00m \u001B[38;5;167;01mKeyError\u001B[39;00m \u001B[38;5;28;01mas\u001B[39;00m err:\n",
+      "File \u001B[1;32m~\\PycharmProjects\\KathChatGPT\\.venv\\Lib\\site-packages\\pandas\\core\\indexes\\base.py:3805\u001B[0m, in \u001B[0;36mIndex.get_loc\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   3804\u001B[0m \u001B[38;5;28;01mtry\u001B[39;00m:\n\u001B[1;32m-> 3805\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43m_engine\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mget_loc\u001B[49m\u001B[43m(\u001B[49m\u001B[43mcasted_key\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   3806\u001B[0m \u001B[38;5;28;01mexcept\u001B[39;00m \u001B[38;5;167;01mKeyError\u001B[39;00m \u001B[38;5;28;01mas\u001B[39;00m err:\n",
       "File \u001B[1;32mindex.pyx:167\u001B[0m, in \u001B[0;36mpandas._libs.index.IndexEngine.get_loc\u001B[1;34m()\u001B[0m\n",
       "File \u001B[1;32mindex.pyx:196\u001B[0m, in \u001B[0;36mpandas._libs.index.IndexEngine.get_loc\u001B[1;34m()\u001B[0m\n",
       "File \u001B[1;32mpandas\\\\_libs\\\\hashtable_class_helper.pxi:7081\u001B[0m, in \u001B[0;36mpandas._libs.hashtable.PyObjectHashTable.get_item\u001B[1;34m()\u001B[0m\n",
@@ -2960,23 +2952,23 @@
       "\u001B[1;31mKeyError\u001B[0m: 'Variants_On_Genome'",
       "\nThe above exception was the direct cause of the following exception:\n",
       "\u001B[1;31mKeyError\u001B[0m                                  Traceback (most recent call last)",
-      "Cell \u001B[1;32mIn[46], line 1\u001B[0m\n\u001B[1;32m----> 1\u001B[0m \u001B[43msave_lovd_as_vcf\u001B[49m\u001B[43m(\u001B[49m\u001B[43mdata\u001B[49m\u001B[43m[\u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mVariants_On_Genome\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m]\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43m./lovd.vcf\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m)\u001B[49m\n",
+      "Cell \u001B[1;32mIn[8], line 1\u001B[0m\n\u001B[1;32m----> 1\u001B[0m \u001B[43msave_lovd_as_vcf\u001B[49m\u001B[43m(\u001B[49m\u001B[43mdata\u001B[49m\u001B[43m[\u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mVariants_On_Genome\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m]\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43m./lovd.vcf\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m)\u001B[49m\n",
       "File \u001B[1;32m~\\PycharmProjects\\kath\\api\\data\\refactoring.py:140\u001B[0m, in \u001B[0;36msave_lovd_as_vcf\u001B[1;34m(data, save_to)\u001B[0m\n\u001B[0;32m    134\u001B[0m \u001B[38;5;28;01mdef\u001B[39;00m \u001B[38;5;21msave_lovd_as_vcf\u001B[39m(data, save_to\u001B[38;5;241m=\u001B[39m\u001B[38;5;124m\"\u001B[39m\u001B[38;5;124m./lovd.vcf\u001B[39m\u001B[38;5;124m\"\u001B[39m):\n\u001B[0;32m    135\u001B[0m \u001B[38;5;250m    \u001B[39m\u001B[38;5;124;03m\"\"\"\u001B[39;00m\n\u001B[0;32m    136\u001B[0m \u001B[38;5;124;03m    Gets hg38 variants from LOVD and saves as VCF file.\u001B[39;00m\n\u001B[0;32m    137\u001B[0m \u001B[38;5;124;03m    :param DataFrame data: LOVD DataFrame with data\u001B[39;00m\n\u001B[0;32m    138\u001B[0m \u001B[38;5;124;03m    :param str save_to: path where to save VCF file.\u001B[39;00m\n\u001B[0;32m    139\u001B[0m \u001B[38;5;124;03m    \"\"\"\u001B[39;00m\n\u001B[1;32m--> 140\u001B[0m     df \u001B[38;5;241m=\u001B[39m \u001B[43mdata\u001B[49m\u001B[43m[\u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mVariants_On_Genome\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m]\u001B[49m\n\u001B[0;32m    141\u001B[0m     \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mVariantOnGenome/DNA/hg38\u001B[39m\u001B[38;5;124m\"\u001B[39m \u001B[38;5;129;01mnot\u001B[39;00m \u001B[38;5;129;01min\u001B[39;00m df\u001B[38;5;241m.\u001B[39mcolumns:\n\u001B[0;32m    142\u001B[0m         \u001B[38;5;28;01mraise\u001B[39;00m \u001B[38;5;167;01mValueError\u001B[39;00m(\u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mVariantOnGenome/DNA/hg38 is not in the LOVD DataFrame.\u001B[39m\u001B[38;5;124m\"\u001B[39m)\n",
-      "File \u001B[1;32m~\\PycharmProjects\\kath\\venv\\Lib\\site-packages\\pandas\\core\\frame.py:4102\u001B[0m, in \u001B[0;36mDataFrame.__getitem__\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   4100\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39mcolumns\u001B[38;5;241m.\u001B[39mnlevels \u001B[38;5;241m>\u001B[39m \u001B[38;5;241m1\u001B[39m:\n\u001B[0;32m   4101\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_getitem_multilevel(key)\n\u001B[1;32m-> 4102\u001B[0m indexer \u001B[38;5;241m=\u001B[39m \u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mcolumns\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mget_loc\u001B[49m\u001B[43m(\u001B[49m\u001B[43mkey\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   4103\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m is_integer(indexer):\n\u001B[0;32m   4104\u001B[0m     indexer \u001B[38;5;241m=\u001B[39m [indexer]\n",
-      "File \u001B[1;32m~\\PycharmProjects\\kath\\venv\\Lib\\site-packages\\pandas\\core\\indexes\\base.py:3812\u001B[0m, in \u001B[0;36mIndex.get_loc\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   3807\u001B[0m     \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28misinstance\u001B[39m(casted_key, \u001B[38;5;28mslice\u001B[39m) \u001B[38;5;129;01mor\u001B[39;00m (\n\u001B[0;32m   3808\u001B[0m         \u001B[38;5;28misinstance\u001B[39m(casted_key, abc\u001B[38;5;241m.\u001B[39mIterable)\n\u001B[0;32m   3809\u001B[0m         \u001B[38;5;129;01mand\u001B[39;00m \u001B[38;5;28many\u001B[39m(\u001B[38;5;28misinstance\u001B[39m(x, \u001B[38;5;28mslice\u001B[39m) \u001B[38;5;28;01mfor\u001B[39;00m x \u001B[38;5;129;01min\u001B[39;00m casted_key)\n\u001B[0;32m   3810\u001B[0m     ):\n\u001B[0;32m   3811\u001B[0m         \u001B[38;5;28;01mraise\u001B[39;00m InvalidIndexError(key)\n\u001B[1;32m-> 3812\u001B[0m     \u001B[38;5;28;01mraise\u001B[39;00m \u001B[38;5;167;01mKeyError\u001B[39;00m(key) \u001B[38;5;28;01mfrom\u001B[39;00m \u001B[38;5;21;01merr\u001B[39;00m\n\u001B[0;32m   3813\u001B[0m \u001B[38;5;28;01mexcept\u001B[39;00m \u001B[38;5;167;01mTypeError\u001B[39;00m:\n\u001B[0;32m   3814\u001B[0m     \u001B[38;5;66;03m# If we have a listlike key, _check_indexing_error will raise\u001B[39;00m\n\u001B[0;32m   3815\u001B[0m     \u001B[38;5;66;03m#  InvalidIndexError. Otherwise we fall through and re-raise\u001B[39;00m\n\u001B[0;32m   3816\u001B[0m     \u001B[38;5;66;03m#  the TypeError.\u001B[39;00m\n\u001B[0;32m   3817\u001B[0m     \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_check_indexing_error(key)\n",
+      "File \u001B[1;32m~\\PycharmProjects\\KathChatGPT\\.venv\\Lib\\site-packages\\pandas\\core\\frame.py:4102\u001B[0m, in \u001B[0;36mDataFrame.__getitem__\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   4100\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39mcolumns\u001B[38;5;241m.\u001B[39mnlevels \u001B[38;5;241m>\u001B[39m \u001B[38;5;241m1\u001B[39m:\n\u001B[0;32m   4101\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_getitem_multilevel(key)\n\u001B[1;32m-> 4102\u001B[0m indexer \u001B[38;5;241m=\u001B[39m \u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mcolumns\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mget_loc\u001B[49m\u001B[43m(\u001B[49m\u001B[43mkey\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   4103\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m is_integer(indexer):\n\u001B[0;32m   4104\u001B[0m     indexer \u001B[38;5;241m=\u001B[39m [indexer]\n",
+      "File \u001B[1;32m~\\PycharmProjects\\KathChatGPT\\.venv\\Lib\\site-packages\\pandas\\core\\indexes\\base.py:3812\u001B[0m, in \u001B[0;36mIndex.get_loc\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   3807\u001B[0m     \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28misinstance\u001B[39m(casted_key, \u001B[38;5;28mslice\u001B[39m) \u001B[38;5;129;01mor\u001B[39;00m (\n\u001B[0;32m   3808\u001B[0m         \u001B[38;5;28misinstance\u001B[39m(casted_key, abc\u001B[38;5;241m.\u001B[39mIterable)\n\u001B[0;32m   3809\u001B[0m         \u001B[38;5;129;01mand\u001B[39;00m \u001B[38;5;28many\u001B[39m(\u001B[38;5;28misinstance\u001B[39m(x, \u001B[38;5;28mslice\u001B[39m) \u001B[38;5;28;01mfor\u001B[39;00m x \u001B[38;5;129;01min\u001B[39;00m casted_key)\n\u001B[0;32m   3810\u001B[0m     ):\n\u001B[0;32m   3811\u001B[0m         \u001B[38;5;28;01mraise\u001B[39;00m InvalidIndexError(key)\n\u001B[1;32m-> 3812\u001B[0m     \u001B[38;5;28;01mraise\u001B[39;00m \u001B[38;5;167;01mKeyError\u001B[39;00m(key) \u001B[38;5;28;01mfrom\u001B[39;00m \u001B[38;5;21;01merr\u001B[39;00m\n\u001B[0;32m   3813\u001B[0m \u001B[38;5;28;01mexcept\u001B[39;00m \u001B[38;5;167;01mTypeError\u001B[39;00m:\n\u001B[0;32m   3814\u001B[0m     \u001B[38;5;66;03m# If we have a listlike key, _check_indexing_error will raise\u001B[39;00m\n\u001B[0;32m   3815\u001B[0m     \u001B[38;5;66;03m#  InvalidIndexError. Otherwise we fall through and re-raise\u001B[39;00m\n\u001B[0;32m   3816\u001B[0m     \u001B[38;5;66;03m#  the TypeError.\u001B[39;00m\n\u001B[0;32m   3817\u001B[0m     \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_check_indexing_error(key)\n",
       "\u001B[1;31mKeyError\u001B[0m: 'Variants_On_Genome'"
      ]
     }
    ],
-   "execution_count": 46
+   "execution_count": 8
   },
   {
    "cell_type": "code",
    "id": "c7ff16903e0c52bd",
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2024-07-31T14:38:52.603569Z",
-     "start_time": "2024-07-31T14:38:52.602570Z"
+     "end_time": "2024-08-06T14:19:36.921706Z",
+     "start_time": "2024-08-06T14:19:36.921706Z"
     }
    },
    "source": [
@@ -2992,12 +2984,7 @@
   {
    "cell_type": "code",
    "id": "0514ccc3-5c91-41ad-ab15-f4158030ea14",
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-07-31T14:38:52.605570Z",
-     "start_time": "2024-07-31T14:38:52.604570Z"
-    }
-   },
+   "metadata": {},
    "source": [
     "from api.tools import get_revel_scores\n",
     "\n",
@@ -3049,11 +3036,308 @@
    "outputs": [],
    "execution_count": null
   },
+  {
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-08-06T14:58:14.898227Z",
+     "start_time": "2024-08-06T14:58:14.228473Z"
+    }
+   },
+   "cell_type": "code",
+   "source": [
+    "import requests\n",
+    "\n",
+    "gene_id = '1519785'\n",
+    "\n",
+    "path = f\"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id={gene_id}&retmode=json\"\n",
+    "\n",
+    "request = requests.get(path)\n",
+    "\n",
+    "if request.status_code != 200:\n",
+    "    raise ValueError(f\"Request failed with status code {request.status_code}\")\n",
+    "\n",
+    "data = request.json()\n",
+    "\n",
+    " # Extract the 'result' part of the JSON\n",
+    "results = data['result']\n",
+    "\n",
+    "# Extract the 'uids' part of the JSON\n",
+    "flattened_data = []\n",
+    "\n",
+    "for uid in results['uids']:\n",
+    "    entry = results[uid]\n",
+    "\n",
+    "    # Using pd.json_normalize to flatten the JSON data\n",
+    "    flattened_entry = pd.json_normalize(entry, sep='_')\n",
+    "\n",
+    "    flattened_variation_set = pd.json_normalize(flattened_entry['variation_set'][0], sep='_')\n",
+    "    flattened_variation_xrefs = pd.json_normalize(flattened_variation_set['variation_xrefs'][0], sep='_')\n",
+    "    \n",
+    "    variation_loc_size = len(flattened_variation_set['variation_loc'][0]) \n",
+    "    for i in range(variation_loc_size):\n",
+    "        flattened_variation_loc = pd.json_normalize(flattened_variation_set['variation_loc'][0][i], sep='_')\n",
+    "        flattened_variation_loc = flattened_variation_loc.add_prefix(f'{i}_')\n",
+    "        flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_loc], axis=1)\n",
+    "    \n",
+    "    allele_freq_set_size = len(flattened_variation_set['allele_freq_set'][0])\n",
+    "    for i in range(allele_freq_set_size):\n",
+    "        flattened_allele_freq_set = pd.json_normalize(flattened_variation_set['allele_freq_set'][0][i], sep='_')\n",
+    "        flattened_allele_freq_set = flattened_allele_freq_set.add_prefix(f'{i}_')\n",
+    "        flattened_variation_set = pd.concat([flattened_variation_set, flattened_allele_freq_set], axis=1)\n",
+    "    \n",
+    "    gene_size = len(flattened_entry['genes'][0])\n",
+    "    for i in range(gene_size):\n",
+    "        flattened_genes = pd.json_normalize(flattened_entry['genes'][0][i], sep='_')\n",
+    "        flattened_genes = flattened_genes.add_prefix(f'{i}_')\n",
+    "        flattened_entry = pd.concat([flattened_entry, flattened_genes], axis=1)\n",
+    "\n",
+    "    gremline_classification_trait_set_size = len(flattened_entry['germline_classification_trait_set'][0])\n",
+    "    for i in range(gremline_classification_trait_set_size):\n",
+    "        flattened_germline_classification_trait_set = pd.json_normalize(flattened_entry['germline_classification_trait_set'][0][i], sep='_')\n",
+    "        flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.add_prefix(f'{i}_')\n",
+    "        \n",
+    "        trait_xrefs_size = len(flattened_germline_classification_trait_set[f'{i}_trait_xrefs'][0])\n",
+    "        for j in range(trait_xrefs_size):\n",
+    "            flattened_trait_xrefs = pd.json_normalize(flattened_germline_classification_trait_set[f'{i}_trait_xrefs'][0][j], sep='_')\n",
+    "            flattened_trait_xrefs = flattened_trait_xrefs.add_prefix(f'{j}_')\n",
+    "\n",
+    "            flattened_germline_classification_trait_set = pd.concat([flattened_germline_classification_trait_set, flattened_trait_xrefs], axis=1)\n",
+    "    \n",
+    "        flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.drop(columns=[f'{i}_trait_xrefs'], axis=1)\n",
+    "        flattened_entry = pd.concat([flattened_entry, flattened_germline_classification_trait_set], axis=1)\n",
+    "        \n",
+    "    # dropping extracted nests\n",
+    "    flattened_entry = flattened_entry.drop(columns=['variation_set', 'genes', 'germline_classification_trait_set'],axis=1)\n",
+    "    flattened_variation_set = flattened_variation_set.drop(columns=['variation_xrefs', 'variation_loc', 'allele_freq_set'], axis=1)\n",
+    "\n",
+    "    flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_xrefs], axis=1)\n",
+    "    flattened_variation_set = pd.concat([flattened_variation_set, flattened_allele_freq_set], axis=1)\n",
+    "\n",
+    "    flattened_entry = pd.concat([flattened_entry, flattened_variation_set], axis=1)\n",
+    "    flattened_entry = pd.concat([flattened_entry, flattened_germline_classification_trait_set], axis=1)\n",
+    "\n",
+    "    # Append the flattened entry to the list\n",
+    "    flattened_data.append(flattened_entry)\n",
+    "\n",
+    "    # Concatenate all flattened entries into a single DataFrame\n",
+    "df = pd.concat(flattened_data, ignore_index=True)\n",
+    "\n",
+    "display(df)\n"
+   ],
+   "id": "7e9ca83a40035c14",
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "       uid                   obj_type  ... 3_db_source 3_db_id\n",
+       "0  1519785  single nucleotide variant  ...        OMIM  614702\n",
+       "\n",
+       "[1 rows x 110 columns]"
+      ],
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>uid</th>\n",
+       "      <th>obj_type</th>\n",
+       "      <th>accession</th>\n",
+       "      <th>accession_version</th>\n",
+       "      <th>title</th>\n",
+       "      <th>record_status</th>\n",
+       "      <th>gene_sort</th>\n",
+       "      <th>chr_sort</th>\n",
+       "      <th>location_sort</th>\n",
+       "      <th>variation_set_name</th>\n",
+       "      <th>variation_set_id</th>\n",
+       "      <th>molecular_consequence_list</th>\n",
+       "      <th>protein_change</th>\n",
+       "      <th>fda_recognized_database</th>\n",
+       "      <th>supporting_submissions_scv</th>\n",
+       "      <th>supporting_submissions_rcv</th>\n",
+       "      <th>germline_classification_description</th>\n",
+       "      <th>germline_classification_last_evaluated</th>\n",
+       "      <th>germline_classification_review_status</th>\n",
+       "      <th>germline_classification_fda_recognized_database</th>\n",
+       "      <th>clinical_impact_classification_description</th>\n",
+       "      <th>clinical_impact_classification_last_evaluated</th>\n",
+       "      <th>clinical_impact_classification_review_status</th>\n",
+       "      <th>clinical_impact_classification_fda_recognized_database</th>\n",
+       "      <th>clinical_impact_classification_trait_set</th>\n",
+       "      <th>oncogenicity_classification_description</th>\n",
+       "      <th>oncogenicity_classification_last_evaluated</th>\n",
+       "      <th>oncogenicity_classification_review_status</th>\n",
+       "      <th>oncogenicity_classification_fda_recognized_database</th>\n",
+       "      <th>oncogenicity_classification_trait_set</th>\n",
+       "      <th>0_symbol</th>\n",
+       "      <th>0_geneid</th>\n",
+       "      <th>0_strand</th>\n",
+       "      <th>0_source</th>\n",
+       "      <th>0_trait_name</th>\n",
+       "      <th>0_db_source</th>\n",
+       "      <th>0_db_id</th>\n",
+       "      <th>1_db_source</th>\n",
+       "      <th>1_db_id</th>\n",
+       "      <th>2_db_source</th>\n",
+       "      <th>...</th>\n",
+       "      <th>1_stop</th>\n",
+       "      <th>1_inner_start</th>\n",
+       "      <th>1_inner_stop</th>\n",
+       "      <th>1_outer_start</th>\n",
+       "      <th>1_outer_stop</th>\n",
+       "      <th>1_display_start</th>\n",
+       "      <th>1_display_stop</th>\n",
+       "      <th>1_assembly_acc_ver</th>\n",
+       "      <th>1_annotation_release</th>\n",
+       "      <th>1_alt</th>\n",
+       "      <th>1_ref</th>\n",
+       "      <th>0_source</th>\n",
+       "      <th>0_value</th>\n",
+       "      <th>0_minor_allele</th>\n",
+       "      <th>1_source</th>\n",
+       "      <th>1_value</th>\n",
+       "      <th>1_minor_allele</th>\n",
+       "      <th>2_source</th>\n",
+       "      <th>2_value</th>\n",
+       "      <th>2_minor_allele</th>\n",
+       "      <th>3_source</th>\n",
+       "      <th>3_value</th>\n",
+       "      <th>3_minor_allele</th>\n",
+       "      <th>4_source</th>\n",
+       "      <th>4_value</th>\n",
+       "      <th>4_minor_allele</th>\n",
+       "      <th>db_source</th>\n",
+       "      <th>db_id</th>\n",
+       "      <th>4_source</th>\n",
+       "      <th>4_value</th>\n",
+       "      <th>4_minor_allele</th>\n",
+       "      <th>0_trait_name</th>\n",
+       "      <th>0_db_source</th>\n",
+       "      <th>0_db_id</th>\n",
+       "      <th>1_db_source</th>\n",
+       "      <th>1_db_id</th>\n",
+       "      <th>2_db_source</th>\n",
+       "      <th>2_db_id</th>\n",
+       "      <th>3_db_source</th>\n",
+       "      <th>3_db_id</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>1519785</td>\n",
+       "      <td>single nucleotide variant</td>\n",
+       "      <td>VCV001519785</td>\n",
+       "      <td>VCV001519785.</td>\n",
+       "      <td>NM_012123.4(MTO1):c.1465+4A&gt;T</td>\n",
+       "      <td></td>\n",
+       "      <td>MTO1</td>\n",
+       "      <td>06</td>\n",
+       "      <td>00000000000073482248</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[intron variant]</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[SCV002308196]</td>\n",
+       "      <td>[RCV002024803]</td>\n",
+       "      <td>Uncertain significance</td>\n",
+       "      <td>2022/07/06 00:00</td>\n",
+       "      <td>criteria provided, single submitter</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>MTO1</td>\n",
+       "      <td>25821</td>\n",
+       "      <td>+</td>\n",
+       "      <td>submitted</td>\n",
+       "      <td>Mitochondrial hypertrophic cardiomyopathy with...</td>\n",
+       "      <td>Orphanet</td>\n",
+       "      <td>314637</td>\n",
+       "      <td>MedGen</td>\n",
+       "      <td>C4749921</td>\n",
+       "      <td>MONDO</td>\n",
+       "      <td>...</td>\n",
+       "      <td>74191971</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>74191971</td>\n",
+       "      <td>74191971</td>\n",
+       "      <td>GCF_000001405.25</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>Exome Aggregation Consortium (ExAC)</td>\n",
+       "      <td>0.00002</td>\n",
+       "      <td></td>\n",
+       "      <td>The Genome Aggregation Database (gnomAD)</td>\n",
+       "      <td>0.00003</td>\n",
+       "      <td></td>\n",
+       "      <td>The Genome Aggregation Database (gnomAD), exomes</td>\n",
+       "      <td>0.00004</td>\n",
+       "      <td></td>\n",
+       "      <td>Trans-Omics for Precision Medicine (TOPMed)</td>\n",
+       "      <td>0.00005</td>\n",
+       "      <td></td>\n",
+       "      <td>1000 Genomes Project</td>\n",
+       "      <td>0.00020</td>\n",
+       "      <td>T</td>\n",
+       "      <td>dbSNP</td>\n",
+       "      <td>555094677</td>\n",
+       "      <td>1000 Genomes Project</td>\n",
+       "      <td>0.00020</td>\n",
+       "      <td>T</td>\n",
+       "      <td>Mitochondrial hypertrophic cardiomyopathy with...</td>\n",
+       "      <td>Orphanet</td>\n",
+       "      <td>314637</td>\n",
+       "      <td>MedGen</td>\n",
+       "      <td>C4749921</td>\n",
+       "      <td>MONDO</td>\n",
+       "      <td>MONDO:0013865</td>\n",
+       "      <td>OMIM</td>\n",
+       "      <td>614702</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>1 rows × 110 columns</p>\n",
+       "</div>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "execution_count": 35
+  },
   {
    "metadata": {},
    "cell_type": "code",
    "source": "",
-   "id": "a97fbf604bd8977b",
+   "id": "7df7d0cb3b874157",
    "outputs": [],
    "execution_count": null
   }

From 6dba6fe6b5398256812ec0c8ca11e297e378a488 Mon Sep 17 00:00:00 2001
From: Kajus CC <42713684+KajusC@users.noreply.github.com>
Date: Wed, 7 Aug 2024 16:03:04 +0300
Subject: [PATCH 03/10] Implemented a function which extracts variation ids
 from gene name, those ids are formatted to dataframe

---
 api/__init__.py         |    3 +-
 api/data/__init__.py    |    1 +
 api/data/refactoring.py |  148 +-
 tests/pipeline.ipynb    | 4293 +++++++++++----------------------------
 4 files changed, 1262 insertions(+), 3183 deletions(-)

diff --git a/api/__init__.py b/api/__init__.py
index f54edfc..fb618dd 100644
--- a/api/__init__.py
+++ b/api/__init__.py
@@ -56,5 +56,6 @@
     parse_lovd,
     from_clinvar_name_to_cdna_position,
     save_lovd_as_vcf,
-    request_clinvar_api_data
+    request_clinvar_api_data,
+    get_variant_ids_from_clinvar_name_api,
 )
diff --git a/api/data/__init__.py b/api/data/__init__.py
index 001190d..34caf42 100644
--- a/api/data/__init__.py
+++ b/api/data/__init__.py
@@ -57,4 +57,5 @@
     from_clinvar_name_to_cdna_position,
     save_lovd_as_vcf,
     request_clinvar_api_data,
+    get_variant_ids_from_clinvar_name_api,
 )
diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index c6e82ea..79cbe78 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -160,94 +160,116 @@ def save_lovd_as_vcf(data, save_to="./lovd.vcf"):
             f.write("\n")
 
 
+def get_variant_ids_from_clinvar_name_api(name: str, count: int = 100):
+    """
+    Extracts variant ids from ClinVar `name` variable. /n
+    key of dictionary is the size of the list of ids.
+
+    :param str name: name of variant
+    :param int count: number of ids to extract
+    :returns: ids of variants
+    :rtype: str
+    """
+
+    result = {}
+
+    separator = ","
+    clinvar_url = f"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=clinvar&term={name}&retmode=json&retmax={count}"
+
+    request = requests.get(clinvar_url)
+
+    if request.status_code != 200:
+        raise ValueError(f"Request failed with status code {request.status_code}")
+
+    data = request.json()
+
+    ids = data['esearchresult']['idlist']
+
+    result['idlist'] = ids
+    result['count'] = data['esearchresult']['count']
+
+    return result
+
+
 def request_clinvar_api_data(gene_id: str):
     """
-    Requests ClinVar API for data about variant with given id.\n
+    Requests ClinVar API for data about variant with given id.
     Converts it to pandas dataframe.
 
     :param str gene_id: id of variant (may be multiple)
     :returns: dataframe from ClinVar API
     :rtype: dataframe
     """
+    clinvar_url = f"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id={gene_id}&retmode=json"
 
-    path = f"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id={gene_id}&retmode=json"
-
-    request = requests.get(path)
+    request = requests.get(clinvar_url)
 
     if request.status_code != 200:
         raise ValueError(f"Request failed with status code {request.status_code}")
 
     data = request.json()
 
-    # Extract the 'result' part of the JSON
     results = data['result']
 
-    # Extract the 'uids' part of the JSON
     flattened_data = []
 
     for uid in results['uids']:
         entry = results[uid]
 
-        # Using pd.json_normalize to flatten the JSON data
         flattened_entry = pd.json_normalize(entry, sep='_')
 
-        flattened_variation_set = pd.json_normalize(flattened_entry['variation_set'][0], sep='_')
-        flattened_variation_xrefs = pd.json_normalize(flattened_variation_set['variation_xrefs'][0], sep='_')
-
-        variation_loc_size = len(flattened_variation_set['variation_loc'][0])
-        for i in range(variation_loc_size):
-            flattened_variation_loc = pd.json_normalize(flattened_variation_set['variation_loc'][0][i], sep='_')
-            flattened_variation_loc = flattened_variation_loc.add_prefix(f'{i}_')
-            flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_loc], axis=1)
-
-        allele_freq_set_size = len(flattened_variation_set['allele_freq_set'][0])
-        for i in range(allele_freq_set_size):
-            flattened_allele_freq_set = pd.json_normalize(flattened_variation_set['allele_freq_set'][0][i], sep='_')
-            flattened_allele_freq_set = flattened_allele_freq_set.add_prefix(f'{i}_')
-            flattened_variation_set = pd.concat([flattened_variation_set, flattened_allele_freq_set], axis=1)
-
-        gene_size = len(flattened_entry['genes'][0])
-        for i in range(gene_size):
-            flattened_genes = pd.json_normalize(flattened_entry['genes'][0][i], sep='_')
-            flattened_genes = flattened_genes.add_prefix(f'{i}_')
-            flattened_entry = pd.concat([flattened_entry, flattened_genes], axis=1)
-
-        gremline_classification_trait_set_size = len(flattened_entry['germline_classification_trait_set'][0])
-        for i in range(gremline_classification_trait_set_size):
-            flattened_germline_classification_trait_set = pd.json_normalize(
-                flattened_entry['germline_classification_trait_set'][0][i], sep='_')
-            flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.add_prefix(
-                f'{i}_')
-
-            trait_xrefs_size = len(flattened_germline_classification_trait_set[f'{i}_trait_xrefs'][0])
-            for j in range(trait_xrefs_size):
-                flattened_trait_xrefs = pd.json_normalize(
-                    flattened_germline_classification_trait_set[f'{i}_trait_xrefs'][0][j], sep='_')
-                flattened_trait_xrefs = flattened_trait_xrefs.add_prefix(f'{j}_')
-
-                flattened_germline_classification_trait_set = pd.concat(
-                    [flattened_germline_classification_trait_set, flattened_trait_xrefs], axis=1)
-
-            flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.drop(
-                columns=[f'{i}_trait_xrefs'], axis=1)
-            flattened_entry = pd.concat([flattened_entry, flattened_germline_classification_trait_set], axis=1)
-
-        # dropping extracted nests
-        flattened_entry = flattened_entry.drop(columns=['variation_set', 'genes', 'germline_classification_trait_set'],
-                                               axis=1)
-        flattened_variation_set = flattened_variation_set.drop(
-            columns=['variation_xrefs', 'variation_loc', 'allele_freq_set'], axis=1)
-
-        flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_xrefs], axis=1)
-        flattened_variation_set = pd.concat([flattened_variation_set, flattened_allele_freq_set], axis=1)
-
-        flattened_entry = pd.concat([flattened_entry, flattened_variation_set], axis=1)
-        flattened_entry = pd.concat([flattened_entry, flattened_germline_classification_trait_set], axis=1)
-
-        # Append the flattened entry to the list
+        variation_set = flattened_entry.at[0, 'variation_set']
+        for idx, var_set in enumerate(variation_set):
+            flat_var_set = pd.json_normalize(var_set, sep='_')
+            flat_var_set = flat_var_set.add_prefix(f'variation_set_{idx}_')
+
+            variation_loc = var_set.get('variation_loc', [])
+            for loc_idx, loc in enumerate(variation_loc):
+                flat_loc = pd.json_normalize(loc, sep='_')
+                flat_loc = flat_loc.add_prefix(f'variation_set_{idx}_loc_{loc_idx}_')
+                flat_var_set = flat_var_set.join(flat_loc, rsuffix=f'_{idx}_{loc_idx}_vl')
+
+            var_xrefs = var_set.get('variation_xrefs', [])
+            for var_xrefs_idx, var_xref in enumerate(var_xrefs):
+                flat_var_xrefs = pd.json_normalize(var_xref, sep='_')
+                flat_var_xrefs = flat_var_xrefs.add_prefix(f'variation_set_{idx}_var_xrefs_{var_xrefs_idx}_')
+                flat_var_set = flat_var_set.join(flat_var_xrefs, rsuffix=f'_{idx}_{var_xrefs_idx}_vx')
+
+            allele_freq = var_set.get('allele_freq_set', [])
+            for allele_freq_idx, allele in enumerate(allele_freq):
+                flat_allele = pd.json_normalize(allele, sep='_')
+                flat_allele = flat_allele.add_prefix(f'variation_set_{idx}_allele_freq_{allele_freq_idx}_')
+                flat_var_set = flat_var_set.join(flat_allele, rsuffix=f'_{idx}_{allele_freq_idx}_af')
+
+            flat_var_set = flat_var_set.drop(
+                columns=[f'variation_set_{idx}_variation_loc', f'variation_set_{idx}_variation_xrefs',
+                         f'variation_set_{idx}_allele_freq_set'])
+            flattened_entry = flattened_entry.join(flat_var_set, rsuffix=f'_{idx}_vs')
+
+        genes = flattened_entry.at[0, 'genes']
+        for idx, gene in enumerate(genes):
+            flat_genes = pd.json_normalize(gene, sep='_')
+            flat_genes = flat_genes.add_prefix(f'gene_{idx}_')
+            flattened_entry = flattened_entry.join(flat_genes, rsuffix=f'_{idx}_g')
+
+        germline_classification_trait_set = flattened_entry.at[0, 'germline_classification_trait_set']
+        for idx, germline_set in enumerate(germline_classification_trait_set):
+            flat_germline_set = pd.json_normalize(germline_set, sep='_')
+            flat_germline_set = flat_germline_set.add_prefix(f'germline_set_{idx}_')
+
+            trait_xrefs = flat_germline_set.at[0, f'germline_set_{idx}_trait_xrefs']
+            for jdx, trait_xref in enumerate(trait_xrefs):
+                flat_trait_xrefs = pd.json_normalize(trait_xref, sep='_')
+                flat_trait_xrefs = flat_trait_xrefs.add_prefix(f'trait_xref_{jdx}_')
+                flat_germline_set = flat_germline_set.join(flat_trait_xrefs, rsuffix=f'_{idx}_{jdx}_tx')
+
+            flat_germline_set = flat_germline_set.drop(columns=[f'germline_set_{idx}_trait_xrefs'])
+            flattened_entry = flattened_entry.join(flat_germline_set, rsuffix=f'_{idx}_gls')
+
+        flattened_entry = flattened_entry.drop(columns=['variation_set', 'genes', 'germline_classification_trait_set'])
+
         flattened_data.append(flattened_entry)
 
-        # Concatenate all flattened entries into a single DataFrame
     df = pd.concat(flattened_data, ignore_index=True)
 
-    return df
+    return df
\ No newline at end of file
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index 12bb5a4..0fb9cfb 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -9,23 +9,27 @@
      "outputs_hidden": true
     },
     "ExecuteTime": {
-     "end_time": "2024-08-06T14:19:28.871130Z",
-     "start_time": "2024-08-06T14:19:28.169833Z"
+     "end_time": "2024-08-07T12:32:22.837138Z",
+     "start_time": "2024-08-07T12:32:21.979038Z"
     }
    },
    "source": [
     "import pandas as pd\n",
+    "import requests\n",
     "\n",
     "from api.data import (store_database_for_eys_gene,\n",
     "                      parse_lovd,\n",
     "                      LOVD_PATH,\n",
     "                      set_lovd_dtypes,\n",
+    "                      request_clinvar_api_data,\n",
+    "                      get_variant_ids_from_clinvar_name_api,\n",
     "                      )\n",
     "from api.data import save_lovd_as_vcf\n",
+    "\n",
     "pd.options.display.max_columns = 0"
    ],
    "outputs": [],
-   "execution_count": 3
+   "execution_count": 1
   },
   {
    "cell_type": "code",
@@ -34,17 +38,13 @@
     "collapsed": false,
     "jupyter": {
      "outputs_hidden": false
-    },
-    "ExecuteTime": {
-     "end_time": "2024-08-06T14:19:29.382744Z",
-     "start_time": "2024-08-06T14:19:28.873646Z"
     }
    },
    "source": [
     "store_database_for_eys_gene(\"lovd\", override=False)"
    ],
    "outputs": [],
-   "execution_count": 4
+   "execution_count": null
   },
   {
    "cell_type": "code",
@@ -53,163 +53,309 @@
     "collapsed": false,
     "jupyter": {
      "outputs_hidden": false
-    },
-    "ExecuteTime": {
-     "end_time": "2024-08-06T14:19:35.787015Z",
-     "start_time": "2024-08-06T14:19:29.383754Z"
     }
    },
    "source": [
     "data = parse_lovd(LOVD_PATH + \"/lovd_data.txt\")"
    ],
    "outputs": [],
-   "execution_count": 5
+   "execution_count": null
   },
   {
    "cell_type": "code",
    "id": "8a089e29bfc8c119",
+   "metadata": {},
+   "source": [
+    "for i in data:\n",
+    "    print(i)\n",
+    "    display(data[i])"
+   ],
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "cell_type": "code",
+   "id": "ef07740b2fa63e42",
    "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-08-06T14:19:35.968177Z",
-     "start_time": "2024-08-06T14:19:35.788025Z"
+    "collapsed": false,
+    "jupyter": {
+     "outputs_hidden": false
     }
    },
    "source": [
+    "set_lovd_dtypes(data)\n",
     "for i in data:\n",
     "    print(i)\n",
-    "    display(data[i])"
+    "    display(data[i].info())"
+   ],
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "cell_type": "code",
+   "id": "c968af1617be40db",
+   "metadata": {},
+   "source": [
+    "save_lovd_as_vcf(data[\"Variants_On_Genome\"], \"./lovd.vcf\")"
+   ],
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "cell_type": "code",
+   "id": "c7ff16903e0c52bd",
+   "metadata": {},
+   "source": [
+    "from subprocess import Popen\n",
+    "\n",
+    "process = Popen(\"spliceai -I ./lovd.vcf -O ./lovd_output.vcf -R ../tools/spliceai/hg38.fa -A grch38\".split())\n",
+    "process.wait()"
+   ],
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "cell_type": "code",
+   "id": "0514ccc3-5c91-41ad-ab15-f4158030ea14",
+   "metadata": {},
+   "source": [
+    "from api.tools import get_revel_scores\n",
+    "\n",
+    "chromosome = 6\n",
+    "position = 65655758\n",
+    "\n",
+    "results = get_revel_scores(chromosome, position)\n",
+    "\n",
+    "display(results)"
+   ],
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": [
+    "import requests\n",
+    "from api.data import request_clinvar_api_data\n",
+    "\n",
+    "gene_id = '1519785,1519786'\n",
+    "\n",
+    "frames = request_clinvar_api_data(gene_id)\n",
+    "\n",
+    "display(frames)"
+   ],
+   "id": "b21c3487476b684f",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": [
+    "gene_id = '1519785'\n",
+    "\n",
+    "\n",
+    "clinvar_url = f\"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id={gene_id}&retmode=json\"\n",
+    "\n",
+    "request = requests.get(clinvar_url)\n",
+    "\n",
+    "if request.status_code != 200:\n",
+    "    raise ValueError(f\"Request failed with status code {request.status_code}\")\n",
+    "\n",
+    "data = request.json()\n",
+    "\n",
+    "# Extract the 'result' part of the JSON\n",
+    "results = data['result']\n",
+    "\n",
+    "# Extract the 'uids' part of the JSON\n",
+    "flattened_data = []\n",
+    "\n",
+    "for uid in results['uids']:\n",
+    "    entry = results[uid]\n",
+    "\n",
+    "    # Using pd.json_normalize to flatten the JSON data\n",
+    "    flattened_entry = pd.json_normalize(entry, sep='_')\n",
+    "\n",
+    "    # Process variation_set\n",
+    "    variation_set = flattened_entry.at[0, 'variation_set']\n",
+    "    for idx, var_set in enumerate(variation_set):\n",
+    "        flat_var_set = pd.json_normalize(var_set, sep='_')\n",
+    "        flat_var_set = flat_var_set.add_prefix(f'variation_set_{idx}_')\n",
+    "\n",
+    "        # Process variation_loc within variation_set\n",
+    "        variation_loc = var_set.get('variation_loc', [])\n",
+    "        for loc_idx, loc in enumerate(variation_loc):\n",
+    "            flat_loc = pd.json_normalize(loc, sep='_')\n",
+    "            flat_loc = flat_loc.add_prefix(f'variation_set_{idx}_loc_{loc_idx}_')\n",
+    "            flat_var_set = flat_var_set.join(flat_loc, rsuffix=f'_{idx}_{loc_idx}_vl')\n",
+    "        \n",
+    "        var_xrefs = var_set.get('variation_xrefs', [])\n",
+    "        for var_xrefs_idx, var_xref in enumerate(var_xrefs):\n",
+    "            flat_var_xrefs = pd.json_normalize(var_xref, sep='_')\n",
+    "            flat_var_xrefs = flat_var_xrefs.add_prefix(f'variation_set_{idx}_var_xrefs_{var_xrefs_idx}_')\n",
+    "            flat_var_set = flat_var_set.join(flat_var_xrefs, rsuffix=f'_{idx}_{var_xrefs_idx}_vx')\n",
+    "\n",
+    "\n",
+    "        allele_freq = var_set.get('allele_freq_set', [])\n",
+    "        for allele_freq_idx, allele in enumerate(allele_freq):\n",
+    "            flat_allele = pd.json_normalize(allele, sep='_')\n",
+    "            flat_allele = flat_allele.add_prefix(f'variation_set_{idx}_allele_freq_{allele_freq_idx}_')\n",
+    "            flat_var_set = flat_var_set.join(flat_allele, rsuffix=f'_{idx}_{allele_freq_idx}_af')\n",
+    "            \n",
+    "        # drop original nested lists columns\n",
+    "        flat_var_set = flat_var_set.drop(columns=[f'variation_set_{idx}_variation_loc', f'variation_set_{idx}_variation_xrefs', f'variation_set_{idx}_allele_freq_set'])\n",
+    "        \n",
+    "        flattened_entry = flattened_entry.join(flat_var_set, rsuffix=f'_{idx}_vs')\n",
+    "\n",
+    "    # Process genes\n",
+    "    genes = flattened_entry.at[0, 'genes']\n",
+    "    for idx, gene in enumerate(genes):\n",
+    "        flat_genes = pd.json_normalize(gene, sep='_')\n",
+    "        flat_genes = flat_genes.add_prefix(f'gene_{idx}_')\n",
+    "        flattened_entry = flattened_entry.join(flat_genes, rsuffix=f'_{idx}_g')\n",
+    "    # Process germline_classification_trait_set\n",
+    "    germline_classification_trait_set = flattened_entry.at[0, 'germline_classification_trait_set']\n",
+    "    for idx, germline_set in enumerate(germline_classification_trait_set):\n",
+    "        flat_germline_set = pd.json_normalize(germline_set, sep='_')\n",
+    "        flat_germline_set = flat_germline_set.add_prefix(f'germline_set_{idx}_')\n",
+    "\n",
+    "        trait_xrefs = flat_germline_set.at[0, f'germline_set_{idx}_trait_xrefs']\n",
+    "        for jdx, trait_xref in enumerate(trait_xrefs):\n",
+    "            flat_trait_xrefs = pd.json_normalize(trait_xref, sep='_')\n",
+    "            flat_trait_xrefs = flat_trait_xrefs.add_prefix(f'trait_xref_{jdx}_')\n",
+    "            flat_germline_set = flat_germline_set.join(flat_trait_xrefs, rsuffix=f'_{idx}_{jdx}_tx')\n",
+    "\n",
+    "        flat_germline_set = flat_germline_set.drop(columns=[f'germline_set_{idx}_trait_xrefs'])\n",
+    "        flattened_entry = flattened_entry.join(flat_germline_set, rsuffix=f'_{idx}_gls')\n",
+    "\n",
+    "    # Dropping original nested lists columns\n",
+    "    flattened_entry = flattened_entry.drop(columns=['variation_set', 'genes', 'germline_classification_trait_set'])\n",
+    "\n",
+    "    # Append the flattened entry to the list\n",
+    "    flattened_data.append(flattened_entry)\n",
+    "\n",
+    "# Concatenate all flattened entries into a single DataFrame\n",
+    "df = pd.concat(flattened_data, ignore_index=True)\n",
+    "\n",
+    "display(df)"
+   ],
+   "id": "3b9b8bdad8bdb55d",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "markdown",
+   "source": [
+    "Explanation of whats happening in the code below:\n",
+    "\n",
+    "Function to get all the ids from a gene name:\n",
+    "```python\n",
+    "get_variant_ids_from_clinvar_name_api(name: str, count: int)\n",
+    "```\n",
+    "\n",
+    "function gets the ids from the clinvar api, the name is the gene name and the count is the maximum number of ids to get (api's limit is 500)\n",
+    "\n",
+    "function returns a dictionary with the count and the list of ids:\n",
+    "\n",
+    "```json\n",
+    "{\n",
+    "    'count': int,\n",
+    "    'idlist': List[str]\n",
+    "}\n",
+    "```\n",
+    "\n",
+    "if the count is greater than the api's limit, the function will split the list of ids into smaller lists of 500 and then request the data from the api in chunks of 500 ids:\n",
+    "\n",
+    "```python\n",
+    "id_lists = [id_list[i:i + max] for i in range(0, size, max)]\n",
+    "```\n",
+    "\n",
+    "then the function will request the data from the api and concatenate the dataframes into a single dataframe:\n",
+    "\n",
+    "```python\n",
+    "frames = request_clinvar_api_data(join)\n",
+    "variations = pd.concat([variations, frames], ignore_index=True)\n",
+    "```\n",
+    "\n",
+    "The variant extraction function contains a lot of nested lists and dictionaries, so the function will flatten the data and then concatenate the dataframes into a single dataframe\n",
+    "\n",
+    "**NOTE**\n",
+    "\n",
+    "> joining function may have been implemented wrong due to the waiting time of the api.\n"
+   ],
+   "id": "655a935b2874c218"
+  },
+  {
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-08-07T12:57:28.089588Z",
+     "start_time": "2024-08-07T12:55:09.972813Z"
+    }
+   },
+   "cell_type": "code",
+   "source": [
+    "import pandas as pd\n",
+    "\n",
+    "variations = pd.DataFrame()\n",
+    "\n",
+    "max = 500\n",
+    "name = \"EYS\"\n",
+    "count = 2147483647\n",
+    "\n",
+    "id_array = get_variant_ids_from_clinvar_name_api(name, count)\n",
+    "size = int(id_array['count'])\n",
+    "id_list = id_array['idlist']\n",
+    "\n",
+    "id_lists = [id_list[i:i + max] for i in range(0, size, max)]\n",
+    "\n",
+    "track = 0\n",
+    "for lists in id_lists:\n",
+    "    join = \",\".join(lists)\n",
+    "    frame = request_clinvar_api_data(join)\n",
+    "    \n",
+    "    variations = pd.concat([variations, frame], ignore_index=True)\n",
+    "    \n",
+    "    print(f\"{track + 1}/{len(id_lists)}\")\n",
+    "    track += 1\n",
+    "\n",
+    "display(variations)\n"
    ],
+   "id": "129175e3a2e568be",
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Genes\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "    id                            name  ... updated_by         updated_date\n",
-       "0  EYS  eyes shut homolog (Drosophila)  ...      00006  2024-05-31 11:42:04\n",
-       "\n",
-       "[1 rows x 34 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>id</th>\n",
-       "      <th>name</th>\n",
-       "      <th>chromosome</th>\n",
-       "      <th>chrom_band</th>\n",
-       "      <th>imprinting</th>\n",
-       "      <th>refseq_genomic</th>\n",
-       "      <th>refseq_UD</th>\n",
-       "      <th>reference</th>\n",
-       "      <th>url_homepage</th>\n",
-       "      <th>url_external</th>\n",
-       "      <th>allow_download</th>\n",
-       "      <th>id_hgnc</th>\n",
-       "      <th>id_entrez</th>\n",
-       "      <th>id_omim</th>\n",
-       "      <th>show_hgmd</th>\n",
-       "      <th>show_genecards</th>\n",
-       "      <th>show_genetests</th>\n",
-       "      <th>show_orphanet</th>\n",
-       "      <th>note_index</th>\n",
-       "      <th>note_listing</th>\n",
-       "      <th>refseq</th>\n",
-       "      <th>refseq_url</th>\n",
-       "      <th>disclaimer</th>\n",
-       "      <th>disclaimer_text</th>\n",
-       "      <th>header</th>\n",
-       "      <th>header_align</th>\n",
-       "      <th>footer</th>\n",
-       "      <th>footer_align</th>\n",
-       "      <th>created_by</th>\n",
-       "      <th>created_date</th>\n",
-       "      <th>edited_by</th>\n",
-       "      <th>edited_date</th>\n",
-       "      <th>updated_by</th>\n",
-       "      <th>updated_date</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>EYS</td>\n",
-       "      <td>eyes shut homolog (Drosophila)</td>\n",
-       "      <td>6</td>\n",
-       "      <td>q12</td>\n",
-       "      <td>unknown</td>\n",
-       "      <td>NG_023443.2</td>\n",
-       "      <td>UD_132085377375</td>\n",
-       "      <td></td>\n",
-       "      <td>http://www.LOVD.nl/EYS</td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td>21555</td>\n",
-       "      <td>346007</td>\n",
-       "      <td>612424</td>\n",
-       "      <td>1</td>\n",
-       "      <td>1</td>\n",
-       "      <td>1</td>\n",
-       "      <td>1</td>\n",
-       "      <td>&lt;font color=\\\"#FF0000\\\"&gt;This database is one o...</td>\n",
-       "      <td></td>\n",
-       "      <td>g</td>\n",
-       "      <td>http://databases.lovd.nl/shared/refseq/EYS_NM_...</td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>&lt;font color=\\\"#FF0000\\\"&gt;This database is one o...</td>\n",
-       "      <td>-1</td>\n",
-       "      <td></td>\n",
-       "      <td>-1</td>\n",
-       "      <td>00001</td>\n",
-       "      <td>2012-02-13 00:00:00</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2023-08-30 13:08:19</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2024-05-31 11:42:04</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Transcripts\n"
+      "1/10\n",
+      "2/10\n",
+      "3/10\n",
+      "4/10\n",
+      "5/10\n",
+      "6/10\n",
+      "7/10\n",
+      "8/10\n",
+      "9/10\n",
+      "10/10\n"
      ]
     },
     {
      "data": {
       "text/plain": [
-       "         id geneid  ... edited_by edited_date\n",
-       "0  00007329    EYS  ...                      \n",
+       "          uid                   obj_type  ... gene_1029_strand gene_1029_source\n",
+       "0     3251429  single nucleotide variant  ...              NaN              NaN\n",
+       "1     3246148                   Deletion  ...              NaN              NaN\n",
+       "2     3246147                   Deletion  ...              NaN              NaN\n",
+       "3     3246146                   Deletion  ...              NaN              NaN\n",
+       "4     3246145                   Deletion  ...              NaN              NaN\n",
+       "...       ...                        ...  ...              ...              ...\n",
+       "4778      538  single nucleotide variant  ...              NaN              NaN\n",
+       "4779      537  single nucleotide variant  ...              NaN              NaN\n",
+       "4780      536                   Deletion  ...              NaN              NaN\n",
+       "4781      535                   Deletion  ...              NaN              NaN\n",
+       "4782      534                   Deletion  ...              NaN              NaN\n",
        "\n",
-       "[1 rows x 19 columns]"
+       "[4783 rows x 4428 columns]"
       ],
       "text/html": [
        "<div>\n",
@@ -230,3034 +376,951 @@
        "  <thead>\n",
        "    <tr style=\"text-align: right;\">\n",
        "      <th></th>\n",
-       "      <th>id</th>\n",
-       "      <th>geneid</th>\n",
-       "      <th>name</th>\n",
-       "      <th>id_mutalyzer</th>\n",
-       "      <th>id_ncbi</th>\n",
-       "      <th>id_ensembl</th>\n",
-       "      <th>id_protein_ncbi</th>\n",
-       "      <th>id_protein_ensembl</th>\n",
-       "      <th>id_protein_uniprot</th>\n",
-       "      <th>remarks</th>\n",
-       "      <th>position_c_mrna_start</th>\n",
-       "      <th>position_c_mrna_end</th>\n",
-       "      <th>position_c_cds_end</th>\n",
-       "      <th>position_g_mrna_start</th>\n",
-       "      <th>position_g_mrna_end</th>\n",
-       "      <th>created_by</th>\n",
-       "      <th>created_date</th>\n",
-       "      <th>edited_by</th>\n",
-       "      <th>edited_date</th>\n",
+       "      <th>uid</th>\n",
+       "      <th>obj_type</th>\n",
+       "      <th>accession</th>\n",
+       "      <th>accession_version</th>\n",
+       "      <th>title</th>\n",
+       "      <th>record_status</th>\n",
+       "      <th>gene_sort</th>\n",
+       "      <th>chr_sort</th>\n",
+       "      <th>location_sort</th>\n",
+       "      <th>variation_set_name</th>\n",
+       "      <th>variation_set_id</th>\n",
+       "      <th>molecular_consequence_list</th>\n",
+       "      <th>protein_change</th>\n",
+       "      <th>fda_recognized_database</th>\n",
+       "      <th>supporting_submissions_scv</th>\n",
+       "      <th>supporting_submissions_rcv</th>\n",
+       "      <th>germline_classification_description</th>\n",
+       "      <th>germline_classification_last_evaluated</th>\n",
+       "      <th>germline_classification_review_status</th>\n",
+       "      <th>germline_classification_fda_recognized_database</th>\n",
+       "      <th>clinical_impact_classification_description</th>\n",
+       "      <th>clinical_impact_classification_last_evaluated</th>\n",
+       "      <th>clinical_impact_classification_review_status</th>\n",
+       "      <th>clinical_impact_classification_fda_recognized_database</th>\n",
+       "      <th>clinical_impact_classification_trait_set</th>\n",
+       "      <th>oncogenicity_classification_description</th>\n",
+       "      <th>oncogenicity_classification_last_evaluated</th>\n",
+       "      <th>oncogenicity_classification_review_status</th>\n",
+       "      <th>oncogenicity_classification_fda_recognized_database</th>\n",
+       "      <th>oncogenicity_classification_trait_set</th>\n",
+       "      <th>variation_set_0_measure_id</th>\n",
+       "      <th>variation_set_0_variation_name</th>\n",
+       "      <th>variation_set_0_cdna_change</th>\n",
+       "      <th>variation_set_0_aliases</th>\n",
+       "      <th>variation_set_0_variant_type</th>\n",
+       "      <th>variation_set_0_canonical_spdi</th>\n",
+       "      <th>variation_set_0_loc_0_status</th>\n",
+       "      <th>variation_set_0_loc_0_assembly_name</th>\n",
+       "      <th>variation_set_0_loc_0_chr</th>\n",
+       "      <th>variation_set_0_loc_0_band</th>\n",
+       "      <th>...</th>\n",
+       "      <th>gene_1020_symbol</th>\n",
+       "      <th>gene_1020_geneid</th>\n",
+       "      <th>gene_1020_strand</th>\n",
+       "      <th>gene_1020_source</th>\n",
+       "      <th>gene_1021_symbol</th>\n",
+       "      <th>gene_1021_geneid</th>\n",
+       "      <th>gene_1021_strand</th>\n",
+       "      <th>gene_1021_source</th>\n",
+       "      <th>gene_1022_symbol</th>\n",
+       "      <th>gene_1022_geneid</th>\n",
+       "      <th>gene_1022_strand</th>\n",
+       "      <th>gene_1022_source</th>\n",
+       "      <th>gene_1023_symbol</th>\n",
+       "      <th>gene_1023_geneid</th>\n",
+       "      <th>gene_1023_strand</th>\n",
+       "      <th>gene_1023_source</th>\n",
+       "      <th>gene_1024_symbol</th>\n",
+       "      <th>gene_1024_geneid</th>\n",
+       "      <th>gene_1024_strand</th>\n",
+       "      <th>gene_1024_source</th>\n",
+       "      <th>gene_1025_symbol</th>\n",
+       "      <th>gene_1025_geneid</th>\n",
+       "      <th>gene_1025_strand</th>\n",
+       "      <th>gene_1025_source</th>\n",
+       "      <th>gene_1026_symbol</th>\n",
+       "      <th>gene_1026_geneid</th>\n",
+       "      <th>gene_1026_strand</th>\n",
+       "      <th>gene_1026_source</th>\n",
+       "      <th>gene_1027_symbol</th>\n",
+       "      <th>gene_1027_geneid</th>\n",
+       "      <th>gene_1027_strand</th>\n",
+       "      <th>gene_1027_source</th>\n",
+       "      <th>gene_1028_symbol</th>\n",
+       "      <th>gene_1028_geneid</th>\n",
+       "      <th>gene_1028_strand</th>\n",
+       "      <th>gene_1028_source</th>\n",
+       "      <th>gene_1029_symbol</th>\n",
+       "      <th>gene_1029_geneid</th>\n",
+       "      <th>gene_1029_strand</th>\n",
+       "      <th>gene_1029_source</th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>00007329</td>\n",
+       "      <td>3251429</td>\n",
+       "      <td>single nucleotide variant</td>\n",
+       "      <td>VCV003251429</td>\n",
+       "      <td>VCV003251429.</td>\n",
+       "      <td>NM_001142800.2(EYS):c.5886T&gt;C (p.Thr1962=)</td>\n",
+       "      <td></td>\n",
        "      <td>EYS</td>\n",
-       "      <td>transcript variant 1</td>\n",
-       "      <td>001</td>\n",
-       "      <td>NM_001142800.1</td>\n",
+       "      <td>06</td>\n",
+       "      <td>00000000000064436215</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[synonymous variant]</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[SCV005076913]</td>\n",
+       "      <td>[RCV004587835]</td>\n",
+       "      <td>Likely benign</td>\n",
+       "      <td>2024/04/08 00:00</td>\n",
+       "      <td>criteria provided, single submitter</td>\n",
        "      <td></td>\n",
-       "      <td>NP_001136272.1</td>\n",
        "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>-538</td>\n",
-       "      <td>10051</td>\n",
-       "      <td>9435</td>\n",
-       "      <td>66417118</td>\n",
-       "      <td>64429876</td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
-       "      <td>0000-00-00 00:00:00</td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>3410228</td>\n",
+       "      <td>NM_001142800.2(EYS):c.5886T&gt;C (p.Thr1962=)</td>\n",
+       "      <td>c.5886T&gt;C</td>\n",
+       "      <td>[]</td>\n",
+       "      <td>single nucleotide variant</td>\n",
+       "      <td>NC_000006.12:64436214:A:G</td>\n",
+       "      <td>current</td>\n",
+       "      <td>GRCh38</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
        "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Diseases\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "       id             symbol  ... edited_by          edited_date\n",
-       "0   00012              PSORS  ...     00006  2019-08-12 13:38:21\n",
-       "1   00058               CORD  ...     00006  2020-08-30 09:43:59\n",
-       "2   00112                 RP  ...     00006  2021-01-18 09:53:26\n",
-       "3   00139                 ID  ...     00006  2015-02-09 10:02:49\n",
-       "4   00173               SLOS  ...     00006  2021-12-10 21:51:32\n",
-       "5   00198                  ?  ...     00006  2016-10-22 17:54:40\n",
-       "6   02156                  -  ...     00006  2021-12-10 21:51:32\n",
-       "7   02440               RP25  ...     00006  2021-12-10 21:51:32\n",
-       "8   04211               RPar  ...                               \n",
-       "9   04214                  -  ...     00001  2023-03-09 14:26:26\n",
-       "10  04249  macular dystrophy  ...     00006  2024-02-15 21:18:39\n",
-       "11  05086                 HL  ...     00006  2015-10-23 11:43:00\n",
-       "12  05415                USH  ...                               \n",
-       "13  05468            uveitis  ...                               \n",
-       "14  06906                DEE  ...                               \n",
-       "\n",
-       "[15 rows x 12 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>id</th>\n",
-       "      <th>symbol</th>\n",
-       "      <th>name</th>\n",
-       "      <th>inheritance</th>\n",
-       "      <th>id_omim</th>\n",
-       "      <th>tissues</th>\n",
-       "      <th>features</th>\n",
-       "      <th>remarks</th>\n",
-       "      <th>created_by</th>\n",
-       "      <th>created_date</th>\n",
-       "      <th>edited_by</th>\n",
-       "      <th>edited_date</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
        "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>00012</td>\n",
-       "      <td>PSORS</td>\n",
-       "      <td>psoriasis, pustular, generalized (PSORS)</td>\n",
+       "      <th>1</th>\n",
+       "      <td>3246148</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td>VCV003246148</td>\n",
+       "      <td>VCV003246148.</td>\n",
+       "      <td>NC_000006.11:g.(?_66204859)_(66217229_?)del</td>\n",
        "      <td></td>\n",
+       "      <td>EYS</td>\n",
+       "      <td>06</td>\n",
+       "      <td>99999999999999999999</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2012-07-06 21:50:32</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2019-08-12 13:38:21</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>00058</td>\n",
-       "      <td>CORD</td>\n",
-       "      <td>dystrophy, cone-rod (CORD)</td>\n",
+       "      <td>[SCV005067530]</td>\n",
+       "      <td>[RCV004578792]</td>\n",
+       "      <td>Pathogenic</td>\n",
+       "      <td>2023/01/02 00:00</td>\n",
+       "      <td>criteria provided, single submitter</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>3403857</td>\n",
+       "      <td>NC_000006.11:g.(?_66204859)_(66217229_?)del</td>\n",
+       "      <td>NC_000006.11:g.(?_66204859)_(66217229_?)del</td>\n",
+       "      <td>[]</td>\n",
+       "      <td>Deletion</td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2012-09-22 11:31:25</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2020-08-30 09:43:59</td>\n",
+       "      <td>previous</td>\n",
+       "      <td>GRCh37</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>2</th>\n",
-       "      <td>00112</td>\n",
-       "      <td>RP</td>\n",
-       "      <td>retinitis pigmentosa (RP)</td>\n",
+       "      <td>3246147</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td>VCV003246147</td>\n",
+       "      <td>VCV003246147.</td>\n",
+       "      <td>NC_000006.11:g.(?_64511633)_(64516181_?)del</td>\n",
+       "      <td></td>\n",
+       "      <td>EYS</td>\n",
+       "      <td>06</td>\n",
+       "      <td>99999999999999999999</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
-       "      <td>268000</td>\n",
+       "      <td></td>\n",
+       "      <td>[SCV005067529]</td>\n",
+       "      <td>[RCV004578791]</td>\n",
+       "      <td>Likely pathogenic</td>\n",
+       "      <td>2023/03/08 00:00</td>\n",
+       "      <td>criteria provided, single submitter</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>3403856</td>\n",
+       "      <td>NC_000006.11:g.(?_64511633)_(64516181_?)del</td>\n",
+       "      <td>NC_000006.11:g.(?_64511633)_(64516181_?)del</td>\n",
+       "      <td>[]</td>\n",
+       "      <td>Deletion</td>\n",
        "      <td></td>\n",
-       "      <td>00001</td>\n",
-       "      <td>2013-02-21 17:12:36</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2021-01-18 09:53:26</td>\n",
+       "      <td>previous</td>\n",
+       "      <td>GRCh37</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>3</th>\n",
-       "      <td>00139</td>\n",
-       "      <td>ID</td>\n",
-       "      <td>intellectual disability (ID)</td>\n",
+       "      <td>3246146</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td>VCV003246146</td>\n",
+       "      <td>VCV003246146.</td>\n",
+       "      <td>NC_000006.11:g.(?_65523280)_(65527746_?)del</td>\n",
+       "      <td></td>\n",
+       "      <td>EYS</td>\n",
+       "      <td>06</td>\n",
+       "      <td>99999999999999999999</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[SCV005067528]</td>\n",
+       "      <td>[RCV004578790]</td>\n",
+       "      <td>Likely pathogenic</td>\n",
+       "      <td>2023/04/30 00:00</td>\n",
+       "      <td>criteria provided, single submitter</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
+       "      <td></td>\n",
+       "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>3403855</td>\n",
+       "      <td>NC_000006.11:g.(?_65523280)_(65527746_?)del</td>\n",
+       "      <td>NC_000006.11:g.(?_65523280)_(65527746_?)del</td>\n",
+       "      <td>[]</td>\n",
+       "      <td>Deletion</td>\n",
        "      <td></td>\n",
-       "      <td>00084</td>\n",
-       "      <td>2013-06-04 18:18:07</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2015-02-09 10:02:49</td>\n",
+       "      <td>previous</td>\n",
+       "      <td>GRCh37</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
        "    </tr>\n",
        "    <tr>\n",
        "      <th>4</th>\n",
-       "      <td>00173</td>\n",
-       "      <td>SLOS</td>\n",
-       "      <td>Smith-Lemli-Opitz syndrome (SLOS)</td>\n",
-       "      <td>AR</td>\n",
-       "      <td>270400</td>\n",
+       "      <td>3246145</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td>VCV003246145</td>\n",
+       "      <td>VCV003246145.</td>\n",
+       "      <td>NC_000006.11:g.(?_65587645)_(65596716_?)del</td>\n",
+       "      <td></td>\n",
+       "      <td>EYS</td>\n",
+       "      <td>06</td>\n",
+       "      <td>99999999999999999999</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2013-08-01 11:16:14</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2021-12-10 21:51:32</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>5</th>\n",
-       "      <td>00198</td>\n",
-       "      <td>?</td>\n",
-       "      <td>unclassified / mixed</td>\n",
        "      <td></td>\n",
+       "      <td>[SCV005067527]</td>\n",
+       "      <td>[RCV004578789]</td>\n",
+       "      <td>Likely pathogenic</td>\n",
+       "      <td>2023/06/27 00:00</td>\n",
+       "      <td>criteria provided, single submitter</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2013-09-13 14:21:47</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2016-10-22 17:54:40</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>6</th>\n",
-       "      <td>02156</td>\n",
-       "      <td>-</td>\n",
-       "      <td>retinitis pigmentosa, X-linked, and sinorespir...</td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
-       "      <td>300455</td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>3403854</td>\n",
+       "      <td>NC_000006.11:g.(?_65587645)_(65596716_?)del</td>\n",
+       "      <td>NC_000006.11:g.(?_65587645)_(65596716_?)del</td>\n",
+       "      <td>[]</td>\n",
+       "      <td>Deletion</td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2014-09-25 23:29:40</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2021-12-10 21:51:32</td>\n",
+       "      <td>previous</td>\n",
+       "      <td>GRCh37</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
        "    </tr>\n",
        "    <tr>\n",
-       "      <th>7</th>\n",
-       "      <td>02440</td>\n",
-       "      <td>RP25</td>\n",
-       "      <td>retinitis pigmentosa, type 25 (RP25)</td>\n",
-       "      <td>AR</td>\n",
-       "      <td>602772</td>\n",
+       "      <th>4778</th>\n",
+       "      <td>538</td>\n",
+       "      <td>single nucleotide variant</td>\n",
+       "      <td>VCV000000538</td>\n",
+       "      <td>VCV000000538.</td>\n",
+       "      <td>NM_001142800.2(EYS):c.9405T&gt;A (p.Tyr3135Ter)</td>\n",
        "      <td></td>\n",
+       "      <td>EYS</td>\n",
+       "      <td>06</td>\n",
+       "      <td>00000000000063720626</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2014-09-25 23:29:40</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2021-12-10 21:51:32</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>8</th>\n",
-       "      <td>04211</td>\n",
-       "      <td>RPar</td>\n",
-       "      <td>retinitis pigmentosa, autosomal recessive (RPar)</td>\n",
+       "      <td>[3 prime UTR variant, nonsense]</td>\n",
+       "      <td>Y3156*, Y3135*</td>\n",
        "      <td></td>\n",
+       "      <td>[SCV000020717, SCV000894389, SCV000709692, SCV...</td>\n",
+       "      <td>[RCV000000568, RCV000593252, RCV003914789, RCV...</td>\n",
+       "      <td>Pathogenic/Likely pathogenic</td>\n",
+       "      <td>2024/03/09 00:00</td>\n",
+       "      <td>criteria provided, multiple submitters, no con...</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2015-02-27 18:58:57</td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>9</th>\n",
-       "      <td>04214</td>\n",
-       "      <td>-</td>\n",
-       "      <td>retinal disease</td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>15577</td>\n",
+       "      <td>NM_001142800.2(EYS):c.9405T&gt;A (p.Tyr3135Ter)</td>\n",
+       "      <td>c.9405T&gt;A</td>\n",
+       "      <td>[]</td>\n",
+       "      <td>single nucleotide variant</td>\n",
+       "      <td>NC_000006.12:63720625:A:T</td>\n",
+       "      <td>current</td>\n",
+       "      <td>GRCh38</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4779</th>\n",
+       "      <td>537</td>\n",
+       "      <td>single nucleotide variant</td>\n",
+       "      <td>VCV000000537</td>\n",
+       "      <td>VCV000000537.</td>\n",
+       "      <td>NM_001142800.2(EYS):c.5857G&gt;T (p.Glu1953Ter)</td>\n",
        "      <td></td>\n",
+       "      <td>EYS</td>\n",
+       "      <td>06</td>\n",
+       "      <td>00000000000064436244</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[nonsense]</td>\n",
+       "      <td>E1953*</td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2015-02-27 19:48:07</td>\n",
-       "      <td>00001</td>\n",
-       "      <td>2023-03-09 14:26:26</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>10</th>\n",
-       "      <td>04249</td>\n",
-       "      <td>macular dystrophy</td>\n",
-       "      <td>dystrophy, macular</td>\n",
+       "      <td>[SCV000020716, SCV002519636, SCV004195857, SCV...</td>\n",
+       "      <td>[RCV000000567, RCV001387157]</td>\n",
+       "      <td>Pathogenic</td>\n",
+       "      <td>2024/02/15 00:00</td>\n",
+       "      <td>criteria provided, multiple submitters, no con...</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2015-05-04 22:10:58</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2024-02-15 21:18:39</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>11</th>\n",
-       "      <td>05086</td>\n",
-       "      <td>HL</td>\n",
-       "      <td>hearing loss (HL)</td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>15576</td>\n",
+       "      <td>NM_001142800.2(EYS):c.5857G&gt;T (p.Glu1953Ter)</td>\n",
+       "      <td>c.5857G&gt;T</td>\n",
+       "      <td>[]</td>\n",
+       "      <td>single nucleotide variant</td>\n",
+       "      <td>NC_000006.12:64436243:C:A</td>\n",
+       "      <td>current</td>\n",
+       "      <td>GRCh38</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4780</th>\n",
+       "      <td>536</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td>VCV000000536</td>\n",
+       "      <td>VCV000000536.</td>\n",
+       "      <td>NM_001142800.1(EYS):c.1767-24596_2023+238135del</td>\n",
+       "      <td></td>\n",
+       "      <td>LOC441155</td>\n",
+       "      <td>06</td>\n",
+       "      <td>00000000000065057728</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2015-10-23 11:41:05</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2015-10-23 11:43:00</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>12</th>\n",
-       "      <td>05415</td>\n",
-       "      <td>USH</td>\n",
-       "      <td>Usher syndrome (USH)</td>\n",
        "      <td></td>\n",
+       "      <td>[SCV000020715]</td>\n",
+       "      <td>[RCV000000566]</td>\n",
+       "      <td>Pathogenic</td>\n",
+       "      <td>2008/11/01 00:00</td>\n",
+       "      <td>no assertion criteria provided</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2018-04-02 16:40:44</td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>13</th>\n",
-       "      <td>05468</td>\n",
-       "      <td>uveitis</td>\n",
-       "      <td>uveitis</td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>15575</td>\n",
+       "      <td>NM_001142800.1(EYS):c.1767-24596_2023+238135del</td>\n",
+       "      <td>NM_001142800.1(EYS):c.1767-24596_2023+238135del</td>\n",
+       "      <td>[EX12DEL]</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td></td>\n",
+       "      <td>current</td>\n",
+       "      <td>GRCh38</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4781</th>\n",
+       "      <td>535</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td>VCV000000535</td>\n",
+       "      <td>VCV000000535.</td>\n",
+       "      <td>NM_001142800.1(EYS):c.2260-51191_2992+45990del</td>\n",
        "      <td></td>\n",
+       "      <td>EYS</td>\n",
+       "      <td>06</td>\n",
+       "      <td>00000000000064840707</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2018-08-22 09:47:04</td>\n",
        "      <td></td>\n",
+       "      <td>[SCV000020714]</td>\n",
+       "      <td>[RCV000000565]</td>\n",
+       "      <td>Pathogenic</td>\n",
+       "      <td>2008/11/01 00:00</td>\n",
+       "      <td>no assertion criteria provided</td>\n",
        "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14</th>\n",
-       "      <td>06906</td>\n",
-       "      <td>DEE</td>\n",
-       "      <td>encephalopathy, developmental and epileptic</td>\n",
        "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
        "      <td></td>\n",
+       "      <td>1/01/01 00:00</td>\n",
        "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2022-04-07 09:24:23</td>\n",
        "      <td></td>\n",
+       "      <td>[]</td>\n",
+       "      <td>15574</td>\n",
+       "      <td>NM_001142800.1(EYS):c.2260-51191_2992+45990del</td>\n",
+       "      <td>NM_001142800.1(EYS):c.2260-51191_2992+45990del</td>\n",
+       "      <td>[EX15-19DEL]</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td></td>\n",
+       "      <td>current</td>\n",
+       "      <td>GRCh38</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4782</th>\n",
+       "      <td>534</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td>VCV000000534</td>\n",
+       "      <td>VCV000000534.</td>\n",
+       "      <td>NM_001142800.2(EYS):c.2710_2726del (p.Asp904fs)</td>\n",
        "      <td></td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Genes_To_Diseases\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "  geneid diseaseid\n",
-       "0    EYS     00112\n",
-       "1    EYS     02440"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>geneid</th>\n",
-       "      <th>diseaseid</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>EYS</td>\n",
-       "      <td>00112</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>EYS</td>\n",
-       "      <td>02440</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Individuals\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "            id fatherid  ... Individual/Origin/Population Individual/Individual_ID\n",
-       "0     00000135           ...                                                      \n",
-       "1     00000210           ...                                                      \n",
-       "2     00001962           ...                        white                         \n",
-       "3     00016605           ...                                                      \n",
-       "4     00033096           ...                                                      \n",
-       "...        ...      ...  ...                          ...                      ...\n",
-       "1460  00451166           ...                                                071788\n",
-       "1461  00451252           ...                                                072857\n",
-       "1462  00451259           ...                                                073069\n",
-       "1463  00451333           ...                                                075139\n",
-       "1464  00451348           ...                                                080622\n",
-       "\n",
-       "[1465 rows x 18 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>id</th>\n",
-       "      <th>fatherid</th>\n",
-       "      <th>motherid</th>\n",
-       "      <th>panelid</th>\n",
-       "      <th>panel_size</th>\n",
-       "      <th>license</th>\n",
-       "      <th>owned_by</th>\n",
-       "      <th>Individual/Reference</th>\n",
-       "      <th>Individual/Remarks</th>\n",
-       "      <th>Individual/Gender</th>\n",
-       "      <th>Individual/Consanguinity</th>\n",
-       "      <th>Individual/Origin/Geographic</th>\n",
-       "      <th>Individual/Age_of_death</th>\n",
-       "      <th>Individual/VIP</th>\n",
-       "      <th>Individual/Data_av</th>\n",
-       "      <th>Individual/Treatment</th>\n",
-       "      <th>Individual/Origin/Population</th>\n",
-       "      <th>Individual/Individual_ID</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>00000135</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>3</td>\n",
-       "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>{PMID:Marrakchi 2011:21848462}</td>\n",
-       "      <td>5-generation family, 3 affecteds (M)</td>\n",
-       "      <td>M</td>\n",
-       "      <td>yes</td>\n",
-       "      <td>Tunisia</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>00000210</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>00039</td>\n",
-       "      <td>{PMID:Abu-Safieh-2013:23105016}</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>(Saudi Arabia)</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>00001962</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>00025</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>M</td>\n",
-       "      <td>?</td>\n",
-       "      <td>Germany</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>white</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>00016605</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>00552</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>00033096</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>00229</td>\n",
-       "      <td>{PMID:Neveling 2012:22334370}</td>\n",
-       "      <td></td>\n",
-       "      <td>M</td>\n",
-       "      <td>no</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1460</th>\n",
-       "      <td>00451166</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>071788</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1461</th>\n",
-       "      <td>00451252</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>072857</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1462</th>\n",
-       "      <td>00451259</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>073069</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1463</th>\n",
-       "      <td>00451333</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>075139</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1464</th>\n",
-       "      <td>00451348</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1</td>\n",
-       "      <td></td>\n",
-       "      <td>00006</td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>080622</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>1465 rows × 18 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Individuals_To_Diseases\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "     individualid diseaseid\n",
-       "0        00000135     00012\n",
-       "1        00000210     00058\n",
-       "2        00001962     00173\n",
-       "3        00033096     04214\n",
-       "4        00033109     04214\n",
-       "...           ...       ...\n",
-       "1459     00451166     04249\n",
-       "1460     00451252     04249\n",
-       "1461     00451259     04249\n",
-       "1462     00451333     04249\n",
-       "1463     00451348     04249\n",
-       "\n",
-       "[1464 rows x 2 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>individualid</th>\n",
-       "      <th>diseaseid</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>00000135</td>\n",
-       "      <td>00012</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>00000210</td>\n",
-       "      <td>00058</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>00001962</td>\n",
-       "      <td>00173</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>00033096</td>\n",
-       "      <td>04214</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>00033109</td>\n",
-       "      <td>04214</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1459</th>\n",
-       "      <td>00451166</td>\n",
-       "      <td>04249</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1460</th>\n",
-       "      <td>00451252</td>\n",
-       "      <td>04249</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1461</th>\n",
-       "      <td>00451259</td>\n",
-       "      <td>04249</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1462</th>\n",
-       "      <td>00451333</td>\n",
-       "      <td>04249</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1463</th>\n",
-       "      <td>00451348</td>\n",
-       "      <td>04249</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>1464 rows × 2 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Phenotypes\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "              id  ... Phenotype/Diagnosis/Criteria\n",
-       "0     0000000008  ...                             \n",
-       "1     0000000026  ...                             \n",
-       "2     0000000941  ...                             \n",
-       "3     0000026525  ...                             \n",
-       "4     0000026538  ...                             \n",
-       "...          ...  ...                          ...\n",
-       "1272  0000339895  ...                             \n",
-       "1273  0000339896  ...                             \n",
-       "1274  0000339897  ...                             \n",
-       "1275  0000339898  ...                             \n",
-       "1276  0000339899  ...                             \n",
-       "\n",
-       "[1277 rows x 20 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>id</th>\n",
-       "      <th>diseaseid</th>\n",
-       "      <th>individualid</th>\n",
-       "      <th>owned_by</th>\n",
-       "      <th>Phenotype/Inheritance</th>\n",
-       "      <th>Phenotype/Age</th>\n",
-       "      <th>Phenotype/Additional</th>\n",
-       "      <th>Phenotype/Biochem_param</th>\n",
-       "      <th>Phenotype/Age/Onset</th>\n",
-       "      <th>Phenotype/Age/Diagnosis</th>\n",
-       "      <th>Phenotype/Severity_score</th>\n",
-       "      <th>Phenotype/Onset</th>\n",
-       "      <th>Phenotype/Protein</th>\n",
-       "      <th>Phenotype/Tumor/MSI</th>\n",
-       "      <th>Phenotype/Enzyme/CPK</th>\n",
-       "      <th>Phenotype/Heart/Myocardium</th>\n",
-       "      <th>Phenotype/Lung</th>\n",
-       "      <th>Phenotype/Diagnosis/Definite</th>\n",
-       "      <th>Phenotype/Diagnosis/Initial</th>\n",
-       "      <th>Phenotype/Diagnosis/Criteria</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>0000000008</td>\n",
-       "      <td>00012</td>\n",
-       "      <td>00000135</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>Familial, autosomal recessive</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>0000000026</td>\n",
-       "      <td>00058</td>\n",
-       "      <td>00000210</td>\n",
-       "      <td>00039</td>\n",
-       "      <td>Familial, autosomal recessive</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>0000000941</td>\n",
-       "      <td>00173</td>\n",
-       "      <td>00001962</td>\n",
-       "      <td>00025</td>\n",
-       "      <td>Familial</td>\n",
-       "      <td></td>\n",
-       "      <td>2-3 toe syndactyly</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>5</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>0000026525</td>\n",
-       "      <td>04214</td>\n",
-       "      <td>00033096</td>\n",
-       "      <td>00229</td>\n",
-       "      <td>Unknown</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>retinitis pigmentosa</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>0000026538</td>\n",
-       "      <td>04214</td>\n",
-       "      <td>00033109</td>\n",
-       "      <td>00229</td>\n",
-       "      <td>Unknown</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>retinitis pigmentosa</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1272</th>\n",
-       "      <td>0000339895</td>\n",
-       "      <td>04249</td>\n",
-       "      <td>00450840</td>\n",
-       "      <td>04405</td>\n",
-       "      <td>Unknown</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>Stargardt disease</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1273</th>\n",
-       "      <td>0000339896</td>\n",
-       "      <td>04249</td>\n",
-       "      <td>00450841</td>\n",
-       "      <td>04405</td>\n",
-       "      <td>Unknown</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>Stargardt disease</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1274</th>\n",
-       "      <td>0000339897</td>\n",
-       "      <td>04249</td>\n",
-       "      <td>00450842</td>\n",
-       "      <td>04405</td>\n",
-       "      <td>Unknown</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>cone-rod dystrophy</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1275</th>\n",
-       "      <td>0000339898</td>\n",
-       "      <td>04249</td>\n",
-       "      <td>00450843</td>\n",
-       "      <td>04405</td>\n",
-       "      <td>Unknown</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>Stargardt disease</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1276</th>\n",
-       "      <td>0000339899</td>\n",
-       "      <td>04249</td>\n",
-       "      <td>00450844</td>\n",
-       "      <td>04405</td>\n",
-       "      <td>Unknown</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>macular dystrophy</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>1277 rows × 20 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Screenings\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "              id individualid  ... Screening/Tissue              Screening/Remarks\n",
-       "0     0000000126     00000135  ...                                                \n",
-       "1     0000000211     00000210  ...                                                \n",
-       "2     0000001640     00001962  ...                                                \n",
-       "3     0000016557     00016605  ...                                                \n",
-       "4     0000033164     00033096  ...                                                \n",
-       "...          ...          ...  ...              ...                            ...\n",
-       "1460  0000452765     00451166  ...                   smMIP-based 105 iMD/AMD genes\n",
-       "1461  0000452851     00451252  ...                   smMIP-based 105 iMD/AMD genes\n",
-       "1462  0000452858     00451259  ...                   smMIP-based 105 iMD/AMD genes\n",
-       "1463  0000452932     00451333  ...                   smMIP-based 105 iMD/AMD genes\n",
-       "1464  0000452947     00451348  ...                   smMIP-based 105 iMD/AMD genes\n",
-       "\n",
-       "[1465 rows x 12 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>id</th>\n",
-       "      <th>individualid</th>\n",
-       "      <th>variants_found</th>\n",
-       "      <th>owned_by</th>\n",
-       "      <th>created_by</th>\n",
-       "      <th>created_date</th>\n",
-       "      <th>edited_by</th>\n",
-       "      <th>edited_date</th>\n",
-       "      <th>Screening/Technique</th>\n",
-       "      <th>Screening/Template</th>\n",
-       "      <th>Screening/Tissue</th>\n",
-       "      <th>Screening/Remarks</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>0000000126</td>\n",
-       "      <td>00000135</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2012-07-07 19:04:19</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2012-07-07 19:12:08</td>\n",
-       "      <td>RT-PCR;SEQ</td>\n",
-       "      <td>DNA;RNA</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>0000000211</td>\n",
-       "      <td>00000210</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00039</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2012-09-22 11:36:24</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>SEQ</td>\n",
-       "      <td>DNA</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>0000001640</td>\n",
-       "      <td>00001962</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00025</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2010-03-11 16:36:41</td>\n",
-       "      <td>00025</td>\n",
-       "      <td>2012-04-13 15:18:00</td>\n",
-       "      <td>SEQ</td>\n",
-       "      <td>DNA</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>0000016557</td>\n",
-       "      <td>00016605</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00552</td>\n",
-       "      <td>00552</td>\n",
-       "      <td>2014-05-23 13:12:43</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>SEQ-NG-I</td>\n",
-       "      <td>DNA</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>0000033164</td>\n",
-       "      <td>00033096</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00229</td>\n",
-       "      <td>00229</td>\n",
-       "      <td>2012-02-04 15:20:01</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2012-05-18 13:59:33</td>\n",
-       "      <td>SEQ;SEQ-NG-S</td>\n",
-       "      <td>DNA</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1460</th>\n",
-       "      <td>0000452765</td>\n",
-       "      <td>00451166</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2024-05-31 11:39:36</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>SEQ</td>\n",
-       "      <td>DNA</td>\n",
-       "      <td></td>\n",
-       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1461</th>\n",
-       "      <td>0000452851</td>\n",
-       "      <td>00451252</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2024-05-31 11:39:36</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>SEQ</td>\n",
-       "      <td>DNA</td>\n",
-       "      <td></td>\n",
-       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1462</th>\n",
-       "      <td>0000452858</td>\n",
-       "      <td>00451259</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2024-05-31 11:39:36</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>SEQ</td>\n",
-       "      <td>DNA</td>\n",
-       "      <td></td>\n",
-       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1463</th>\n",
-       "      <td>0000452932</td>\n",
-       "      <td>00451333</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2024-05-31 11:39:36</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>SEQ</td>\n",
-       "      <td>DNA</td>\n",
-       "      <td></td>\n",
-       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1464</th>\n",
-       "      <td>0000452947</td>\n",
-       "      <td>00451348</td>\n",
-       "      <td>1</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>2024-05-31 11:39:36</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>SEQ</td>\n",
-       "      <td>DNA</td>\n",
-       "      <td></td>\n",
-       "      <td>smMIP-based 105 iMD/AMD genes</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>1465 rows × 12 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Screenings_To_Genes\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "     screeningid  geneid\n",
-       "0     0000000126  IL36RN\n",
-       "1     0000000211    MKS1\n",
-       "2     0000001640   DHCR7\n",
-       "3     0000033164    AHI1\n",
-       "4     0000033164     EYS\n",
-       "...          ...     ...\n",
-       "1311  0000437646     EYS\n",
-       "1312  0000437902     EYS\n",
-       "1313  0000437922     EYS\n",
-       "1314  0000443144     EYS\n",
-       "1315  0000443145     EYS\n",
-       "\n",
-       "[1316 rows x 2 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>screeningid</th>\n",
-       "      <th>geneid</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>0000000126</td>\n",
-       "      <td>IL36RN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>0000000211</td>\n",
-       "      <td>MKS1</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>0000001640</td>\n",
-       "      <td>DHCR7</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>0000033164</td>\n",
-       "      <td>AHI1</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>0000033164</td>\n",
-       "      <td>EYS</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1311</th>\n",
-       "      <td>0000437646</td>\n",
-       "      <td>EYS</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1312</th>\n",
-       "      <td>0000437902</td>\n",
-       "      <td>EYS</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1313</th>\n",
-       "      <td>0000437922</td>\n",
-       "      <td>EYS</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1314</th>\n",
-       "      <td>0000443144</td>\n",
-       "      <td>EYS</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1315</th>\n",
-       "      <td>0000443145</td>\n",
-       "      <td>EYS</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>1316 rows × 2 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Variants_On_Genome\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "              id  ... VariantOnGenome/ClinicalClassification/Method\n",
-       "0     0000036426  ...                                              \n",
-       "1     0000059881  ...                                              \n",
-       "2     0000059883  ...                                              \n",
-       "3     0000059884  ...                                              \n",
-       "4     0000059885  ...                                              \n",
-       "...          ...  ...                                           ...\n",
-       "2555  0000987292  ...                                          ACMG\n",
-       "2556  0000987305  ...                                          ACMG\n",
-       "2557  0000987318  ...                                          ACMG\n",
-       "2558  0000987322  ...                                          ACMG\n",
-       "2559  0000987333  ...                                          ACMG\n",
-       "\n",
-       "[2560 rows x 26 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>id</th>\n",
-       "      <th>allele</th>\n",
-       "      <th>effectid</th>\n",
-       "      <th>chromosome</th>\n",
-       "      <th>position_g_start</th>\n",
-       "      <th>position_g_end</th>\n",
-       "      <th>type</th>\n",
-       "      <th>average_frequency</th>\n",
-       "      <th>owned_by</th>\n",
-       "      <th>VariantOnGenome/DBID</th>\n",
-       "      <th>VariantOnGenome/DNA</th>\n",
-       "      <th>VariantOnGenome/Frequency</th>\n",
-       "      <th>VariantOnGenome/Reference</th>\n",
-       "      <th>VariantOnGenome/Restriction_site</th>\n",
-       "      <th>VariantOnGenome/Published_as</th>\n",
-       "      <th>VariantOnGenome/Remarks</th>\n",
-       "      <th>VariantOnGenome/Genetic_origin</th>\n",
-       "      <th>VariantOnGenome/Segregation</th>\n",
-       "      <th>VariantOnGenome/dbSNP</th>\n",
-       "      <th>VariantOnGenome/VIP</th>\n",
-       "      <th>VariantOnGenome/Methylation</th>\n",
-       "      <th>VariantOnGenome/ISCN</th>\n",
-       "      <th>VariantOnGenome/DNA/hg38</th>\n",
-       "      <th>VariantOnGenome/ClinVar</th>\n",
-       "      <th>VariantOnGenome/ClinicalClassification</th>\n",
-       "      <th>VariantOnGenome/ClinicalClassification/Method</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>0000036426</td>\n",
-       "      <td>3</td>\n",
-       "      <td>50</td>\n",
-       "      <td>6</td>\n",
-       "      <td>64498971</td>\n",
-       "      <td>64498971</td>\n",
-       "      <td>subst</td>\n",
-       "      <td>0.000742922</td>\n",
-       "      <td>00552</td>\n",
-       "      <td>EYS_000007</td>\n",
-       "      <td>g.64498971A&gt;G</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>Germline</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.63789078A&gt;G</td>\n",
-       "      <td></td>\n",
-       "      <td>VUS</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>0000059881</td>\n",
-       "      <td>3</td>\n",
-       "      <td>55</td>\n",
-       "      <td>6</td>\n",
-       "      <td>65655758</td>\n",
-       "      <td>65655758</td>\n",
-       "      <td>subst</td>\n",
-       "      <td>0.00115297</td>\n",
-       "      <td>00229</td>\n",
-       "      <td>EYS_000001</td>\n",
-       "      <td>g.65655758T&gt;G</td>\n",
-       "      <td>ExAC: 60, 19750, 0, 0.003038</td>\n",
-       "      <td>{PMID:Neveling 2012:22334370}</td>\n",
-       "      <td></td>\n",
-       "      <td>Q770P</td>\n",
-       "      <td></td>\n",
-       "      <td>Germline</td>\n",
-       "      <td>yes</td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.64945865T&gt;G</td>\n",
-       "      <td></td>\n",
-       "      <td>VUS</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>0000059883</td>\n",
-       "      <td>1</td>\n",
-       "      <td>11</td>\n",
-       "      <td>6</td>\n",
-       "      <td>65336143</td>\n",
-       "      <td>65336143</td>\n",
-       "      <td>subst</td>\n",
-       "      <td>0.224189</td>\n",
-       "      <td>00229</td>\n",
-       "      <td>EYS_000002</td>\n",
-       "      <td>g.65336143G&gt;A</td>\n",
-       "      <td>ExAC: 3936, 19366, 441, 0.2032</td>\n",
-       "      <td>{PMID:Neveling 2012:22334370}</td>\n",
-       "      <td></td>\n",
-       "      <td>p.?</td>\n",
-       "      <td>unaffected brother also this variant homozygous</td>\n",
-       "      <td>Germline</td>\n",
-       "      <td>no</td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.64626250G&gt;A</td>\n",
-       "      <td></td>\n",
-       "      <td>benign</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>0000059884</td>\n",
-       "      <td>1</td>\n",
-       "      <td>15</td>\n",
-       "      <td>6</td>\n",
-       "      <td>65300869</td>\n",
-       "      <td>65300869</td>\n",
-       "      <td>subst</td>\n",
-       "      <td>0.000837928</td>\n",
-       "      <td>00229</td>\n",
-       "      <td>EYS_000003</td>\n",
-       "      <td>g.65300869G&gt;A</td>\n",
-       "      <td>ExAC: 12, 19406, 0, 0.0006184</td>\n",
-       "      <td>{PMID:Neveling 2012:22334370}</td>\n",
-       "      <td></td>\n",
-       "      <td>(P1631S)</td>\n",
-       "      <td>predicted benign, disease-related variant in o...</td>\n",
-       "      <td>Germline</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.64590976G&gt;A</td>\n",
-       "      <td></td>\n",
-       "      <td>benign</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>0000059885</td>\n",
-       "      <td>1</td>\n",
-       "      <td>11</td>\n",
-       "      <td>6</td>\n",
-       "      <td>65016998</td>\n",
-       "      <td>65016999</td>\n",
-       "      <td>del</td>\n",
-       "      <td>0</td>\n",
-       "      <td>00229</td>\n",
-       "      <td>EYS_000004</td>\n",
-       "      <td>g.65016998_65016999del</td>\n",
-       "      <td>ExAC: 9866, 18292, 921, 0.5394</td>\n",
-       "      <td>{PMID:Neveling 2012:22334370}</td>\n",
-       "      <td></td>\n",
-       "      <td>6045-4_6045-3del</td>\n",
-       "      <td>predicted benign</td>\n",
-       "      <td>Germline</td>\n",
-       "      <td>yes</td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.64307105_64307106del</td>\n",
-       "      <td></td>\n",
-       "      <td>benign</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2555</th>\n",
-       "      <td>0000987292</td>\n",
-       "      <td>0</td>\n",
-       "      <td>70</td>\n",
-       "      <td>6</td>\n",
-       "      <td>64431111</td>\n",
-       "      <td>64431111</td>\n",
-       "      <td>subst</td>\n",
-       "      <td>0</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>EYS_000662</td>\n",
-       "      <td>g.64431111C&gt;T</td>\n",
-       "      <td></td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td>c.8879G&gt;A (Cys2960Tyr)</td>\n",
-       "      <td>case unsolved</td>\n",
-       "      <td>Germline</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.63721215C&gt;T</td>\n",
-       "      <td></td>\n",
-       "      <td>likely pathogenic</td>\n",
-       "      <td>ACMG</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2556</th>\n",
-       "      <td>0000987305</td>\n",
-       "      <td>0</td>\n",
-       "      <td>70</td>\n",
-       "      <td>6</td>\n",
-       "      <td>66115167</td>\n",
-       "      <td>66115167</td>\n",
-       "      <td>del</td>\n",
-       "      <td>0</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>EYS_000933</td>\n",
-       "      <td>g.66115167del</td>\n",
-       "      <td></td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>no variant 2nd chromosome, case unsolved</td>\n",
-       "      <td>Germline</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.65405274del</td>\n",
-       "      <td></td>\n",
-       "      <td>likely pathogenic</td>\n",
-       "      <td>ACMG</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2557</th>\n",
-       "      <td>0000987318</td>\n",
-       "      <td>0</td>\n",
-       "      <td>70</td>\n",
-       "      <td>6</td>\n",
-       "      <td>64431148</td>\n",
-       "      <td>64431148</td>\n",
-       "      <td>subst</td>\n",
-       "      <td>3.95361E-5</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>EYS_000067</td>\n",
-       "      <td>g.64431148A&gt;G</td>\n",
-       "      <td></td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>no variant 2nd chromosome, case unsolved</td>\n",
-       "      <td>Germline</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.63721252A&gt;G</td>\n",
-       "      <td></td>\n",
-       "      <td>likely pathogenic</td>\n",
-       "      <td>ACMG</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2558</th>\n",
-       "      <td>0000987322</td>\n",
-       "      <td>0</td>\n",
-       "      <td>90</td>\n",
-       "      <td>6</td>\n",
-       "      <td>64430626</td>\n",
-       "      <td>64430629</td>\n",
-       "      <td>del</td>\n",
-       "      <td>0</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>EYS_000045</td>\n",
-       "      <td>g.64430626_64430629del</td>\n",
-       "      <td></td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>no variant 2nd chromosome, case unsolved</td>\n",
-       "      <td>Germline</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.63720730_63720733del</td>\n",
-       "      <td></td>\n",
-       "      <td>pathogenic</td>\n",
-       "      <td>ACMG</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2559</th>\n",
-       "      <td>0000987333</td>\n",
-       "      <td>0</td>\n",
-       "      <td>90</td>\n",
-       "      <td>6</td>\n",
-       "      <td>64436477</td>\n",
-       "      <td>64436477</td>\n",
-       "      <td>del</td>\n",
-       "      <td>1.349E-5</td>\n",
-       "      <td>00006</td>\n",
-       "      <td>EYS_000397</td>\n",
-       "      <td>g.64436477del</td>\n",
-       "      <td></td>\n",
-       "      <td>{PMID:Hitti-Malin 2024:38540785}, {DOI:Hitti-M...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>no variant 2nd chromosome, case unsolved</td>\n",
-       "      <td>Germline</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>0</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>g.63726584del</td>\n",
-       "      <td></td>\n",
-       "      <td>pathogenic</td>\n",
-       "      <td>ACMG</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>2560 rows × 26 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Variants_On_Transcripts\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "              id  ... VariantOnTranscript/Exon\n",
-       "0     0000036426  ...                       38\n",
-       "1     0000059881  ...                       15\n",
-       "2     0000059883  ...                      22i\n",
-       "3     0000059884  ...                       26\n",
-       "4     0000059885  ...                      29i\n",
-       "...          ...  ...                      ...\n",
-       "2555  0000987292  ...                         \n",
-       "2556  0000987305  ...                         \n",
-       "2557  0000987318  ...                         \n",
-       "2558  0000987322  ...                         \n",
-       "2559  0000987333  ...                         \n",
-       "\n",
-       "[2560 rows x 11 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>id</th>\n",
-       "      <th>transcriptid</th>\n",
-       "      <th>effectid</th>\n",
-       "      <th>position_c_start</th>\n",
-       "      <th>position_c_start_intron</th>\n",
-       "      <th>position_c_end</th>\n",
-       "      <th>position_c_end_intron</th>\n",
-       "      <th>VariantOnTranscript/DNA</th>\n",
-       "      <th>VariantOnTranscript/RNA</th>\n",
-       "      <th>VariantOnTranscript/Protein</th>\n",
-       "      <th>VariantOnTranscript/Exon</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>0000036426</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>50</td>\n",
-       "      <td>7558</td>\n",
-       "      <td>0</td>\n",
-       "      <td>7558</td>\n",
-       "      <td>0</td>\n",
-       "      <td>c.7558T&gt;C</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(Phe2520Leu)</td>\n",
-       "      <td>38</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>0000059881</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>55</td>\n",
-       "      <td>2309</td>\n",
-       "      <td>0</td>\n",
-       "      <td>2309</td>\n",
-       "      <td>0</td>\n",
-       "      <td>c.2309A&gt;C</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(Gln770Pro)</td>\n",
-       "      <td>15</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>0000059883</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>11</td>\n",
-       "      <td>3444</td>\n",
-       "      <td>-5</td>\n",
-       "      <td>3444</td>\n",
-       "      <td>-5</td>\n",
-       "      <td>c.3444-5C&gt;T</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(=)</td>\n",
-       "      <td>22i</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>0000059884</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>15</td>\n",
-       "      <td>4891</td>\n",
-       "      <td>0</td>\n",
-       "      <td>4891</td>\n",
-       "      <td>0</td>\n",
-       "      <td>c.4891C&gt;T</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(Pro1631Ser)</td>\n",
-       "      <td>26</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>0000059885</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>11</td>\n",
-       "      <td>6079</td>\n",
-       "      <td>-4</td>\n",
-       "      <td>6079</td>\n",
-       "      <td>-3</td>\n",
-       "      <td>c.6079-4_6079-3del</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(=)</td>\n",
-       "      <td>29i</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2555</th>\n",
-       "      <td>0000987292</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>70</td>\n",
-       "      <td>8816</td>\n",
-       "      <td>0</td>\n",
-       "      <td>8816</td>\n",
-       "      <td>0</td>\n",
-       "      <td>c.8816G&gt;A</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(Cys2939Tyr)</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2556</th>\n",
-       "      <td>0000987305</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>70</td>\n",
-       "      <td>957</td>\n",
-       "      <td>0</td>\n",
-       "      <td>957</td>\n",
-       "      <td>0</td>\n",
-       "      <td>c.957del</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(Glu319AspfsTer20)</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2557</th>\n",
-       "      <td>0000987318</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>70</td>\n",
-       "      <td>8779</td>\n",
-       "      <td>0</td>\n",
-       "      <td>8779</td>\n",
-       "      <td>0</td>\n",
-       "      <td>c.8779T&gt;C</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(Cys2927Arg)</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2558</th>\n",
-       "      <td>0000987322</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>90</td>\n",
-       "      <td>9299</td>\n",
-       "      <td>0</td>\n",
-       "      <td>9302</td>\n",
-       "      <td>0</td>\n",
-       "      <td>c.9299_9302del</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(Thr3100LysfsTer26)</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2559</th>\n",
-       "      <td>0000987333</td>\n",
-       "      <td>00007329</td>\n",
-       "      <td>90</td>\n",
-       "      <td>8168</td>\n",
-       "      <td>0</td>\n",
-       "      <td>8168</td>\n",
-       "      <td>0</td>\n",
-       "      <td>c.8168del</td>\n",
-       "      <td>r.(?)</td>\n",
-       "      <td>p.(Gln2723ArgfsTer18)</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>2560 rows × 11 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Screenings_To_Variants\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "     screeningid   variantid\n",
-       "0     0000000126  0000783293\n",
-       "1     0000000211  0000790459\n",
-       "2     0000001640  0000235838\n",
-       "3     0000016557  0000036426\n",
-       "4     0000033164  0000059884\n",
-       "...          ...         ...\n",
-       "2163  0000452765  0000987322\n",
-       "2164  0000452851  0000987196\n",
-       "2165  0000452858  0000987333\n",
-       "2166  0000452932  0000987277\n",
-       "2167  0000452947  0000987292\n",
-       "\n",
-       "[2168 rows x 2 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>screeningid</th>\n",
-       "      <th>variantid</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>0000000126</td>\n",
-       "      <td>0000783293</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>0000000211</td>\n",
-       "      <td>0000790459</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>0000001640</td>\n",
-       "      <td>0000235838</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>0000016557</td>\n",
-       "      <td>0000036426</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>0000033164</td>\n",
-       "      <td>0000059884</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2163</th>\n",
-       "      <td>0000452765</td>\n",
-       "      <td>0000987322</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2164</th>\n",
-       "      <td>0000452851</td>\n",
-       "      <td>0000987196</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2165</th>\n",
-       "      <td>0000452858</td>\n",
-       "      <td>0000987333</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2166</th>\n",
-       "      <td>0000452932</td>\n",
-       "      <td>0000987277</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2167</th>\n",
-       "      <td>0000452947</td>\n",
-       "      <td>0000987292</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>2168 rows × 2 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    }
-   ],
-   "execution_count": 6
-  },
-  {
-   "cell_type": "code",
-   "id": "ef07740b2fa63e42",
-   "metadata": {
-    "collapsed": false,
-    "jupyter": {
-     "outputs_hidden": false
-    },
-    "ExecuteTime": {
-     "end_time": "2024-08-06T14:19:36.151167Z",
-     "start_time": "2024-08-06T14:19:35.969184Z"
-    }
-   },
-   "source": [
-    "set_lovd_dtypes(data)\n",
-    "for i in data:\n",
-    "    print(i)\n",
-    "    display(data[i].info())"
-   ],
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Genes\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 1 entries, 0 to 0\n",
-      "Data columns (total 34 columns):\n",
-      " #   Column           Non-Null Count  Dtype         \n",
-      "---  ------           --------------  -----         \n",
-      " 0   id               1 non-null      string        \n",
-      " 1   name             1 non-null      string        \n",
-      " 2   chromosome       1 non-null      Int64         \n",
-      " 3   chrom_band       1 non-null      string        \n",
-      " 4   imprinting       1 non-null      string        \n",
-      " 5   refseq_genomic   1 non-null      string        \n",
-      " 6   refseq_UD        1 non-null      string        \n",
-      " 7   reference        1 non-null      string        \n",
-      " 8   url_homepage     1 non-null      string        \n",
-      " 9   url_external     1 non-null      string        \n",
-      " 10  allow_download   1 non-null      bool          \n",
-      " 11  id_hgnc          1 non-null      Int64         \n",
-      " 12  id_entrez        1 non-null      Int64         \n",
-      " 13  id_omim          1 non-null      Int64         \n",
-      " 14  show_hgmd        1 non-null      bool          \n",
-      " 15  show_genecards   1 non-null      bool          \n",
-      " 16  show_genetests   1 non-null      bool          \n",
-      " 17  show_orphanet    1 non-null      bool          \n",
-      " 18  note_index       1 non-null      string        \n",
-      " 19  note_listing     1 non-null      string        \n",
-      " 20  refseq           1 non-null      string        \n",
-      " 21  refseq_url       1 non-null      string        \n",
-      " 22  disclaimer       1 non-null      bool          \n",
-      " 23  disclaimer_text  1 non-null      string        \n",
-      " 24  header           1 non-null      string        \n",
-      " 25  header_align     1 non-null      Int64         \n",
-      " 26  footer           1 non-null      string        \n",
-      " 27  footer_align     1 non-null      Int64         \n",
-      " 28  created_by       1 non-null      Int64         \n",
-      " 29  created_date     1 non-null      datetime64[ns]\n",
-      " 30  edited_by        1 non-null      Int64         \n",
-      " 31  edited_date      1 non-null      datetime64[ns]\n",
-      " 32  updated_by       1 non-null      Int64         \n",
-      " 33  updated_date     1 non-null      datetime64[ns]\n",
-      "dtypes: Int64(9), bool(6), datetime64[ns](3), string(16)\n",
-      "memory usage: 371.0 bytes\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Transcripts\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 1 entries, 0 to 0\n",
-      "Data columns (total 19 columns):\n",
-      " #   Column                 Non-Null Count  Dtype         \n",
-      "---  ------                 --------------  -----         \n",
-      " 0   id                     1 non-null      Int64         \n",
-      " 1   geneid                 1 non-null      string        \n",
-      " 2   name                   1 non-null      string        \n",
-      " 3   id_mutalyzer           1 non-null      Int64         \n",
-      " 4   id_ncbi                1 non-null      string        \n",
-      " 5   id_ensembl             1 non-null      string        \n",
-      " 6   id_protein_ncbi        1 non-null      string        \n",
-      " 7   id_protein_ensembl     1 non-null      string        \n",
-      " 8   id_protein_uniprot     1 non-null      string        \n",
-      " 9   remarks                1 non-null      string        \n",
-      " 10  position_c_mrna_start  1 non-null      Int64         \n",
-      " 11  position_c_mrna_end    1 non-null      Int64         \n",
-      " 12  position_c_cds_end     1 non-null      Int64         \n",
-      " 13  position_g_mrna_start  1 non-null      Int64         \n",
-      " 14  position_g_mrna_end    1 non-null      Int64         \n",
-      " 15  created_by             0 non-null      Int64         \n",
-      " 16  created_date           0 non-null      datetime64[ns]\n",
-      " 17  edited_by              0 non-null      Int64         \n",
-      " 18  edited_date            0 non-null      datetime64[ns]\n",
-      "dtypes: Int64(9), datetime64[ns](2), string(8)\n",
-      "memory usage: 293.0 bytes\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Diseases\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 15 entries, 0 to 14\n",
-      "Data columns (total 12 columns):\n",
-      " #   Column        Non-Null Count  Dtype         \n",
-      "---  ------        --------------  -----         \n",
-      " 0   id            15 non-null     Int64         \n",
-      " 1   symbol        15 non-null     string        \n",
-      " 2   name          15 non-null     string        \n",
-      " 3   inheritance   15 non-null     string        \n",
-      " 4   id_omim       4 non-null      Int64         \n",
-      " 5   tissues       15 non-null     string        \n",
-      " 6   features      15 non-null     string        \n",
-      " 7   remarks       15 non-null     string        \n",
-      " 8   created_by    15 non-null     Int64         \n",
-      " 9   created_date  15 non-null     datetime64[ns]\n",
-      " 10  edited_by     11 non-null     Int64         \n",
-      " 11  edited_date   11 non-null     datetime64[ns]\n",
-      "dtypes: Int64(4), datetime64[ns](2), string(6)\n",
-      "memory usage: 1.6 KB\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Genes_To_Diseases\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 2 entries, 0 to 1\n",
-      "Data columns (total 2 columns):\n",
-      " #   Column     Non-Null Count  Dtype \n",
-      "---  ------     --------------  ----- \n",
-      " 0   geneid     2 non-null      string\n",
-      " 1   diseaseid  2 non-null      Int64 \n",
-      "dtypes: Int64(1), string(1)\n",
-      "memory usage: 166.0 bytes\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Individuals\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 1465 entries, 0 to 1464\n",
-      "Data columns (total 18 columns):\n",
-      " #   Column                        Non-Null Count  Dtype \n",
-      "---  ------                        --------------  ----- \n",
-      " 0   id                            1465 non-null   Int64 \n",
-      " 1   fatherid                      1465 non-null   string\n",
-      " 2   motherid                      1465 non-null   string\n",
-      " 3   panelid                       6 non-null      Int64 \n",
-      " 4   panel_size                    1465 non-null   Int64 \n",
-      " 5   license                       1465 non-null   string\n",
-      " 6   owned_by                      1465 non-null   Int64 \n",
-      " 7   Individual/Reference          1465 non-null   string\n",
-      " 8   Individual/Remarks            1465 non-null   string\n",
-      " 9   Individual/Gender             1465 non-null   string\n",
-      " 10  Individual/Consanguinity      1465 non-null   string\n",
-      " 11  Individual/Origin/Geographic  1465 non-null   string\n",
-      " 12  Individual/Age_of_death       1465 non-null   string\n",
-      " 13  Individual/VIP                1465 non-null   string\n",
-      " 14  Individual/Data_av            1465 non-null   string\n",
-      " 15  Individual/Treatment          1465 non-null   string\n",
-      " 16  Individual/Origin/Population  1465 non-null   string\n",
-      " 17  Individual/Individual_ID      1465 non-null   string\n",
-      "dtypes: Int64(4), string(14)\n",
-      "memory usage: 211.9 KB\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Individuals_To_Diseases\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 1464 entries, 0 to 1463\n",
-      "Data columns (total 2 columns):\n",
-      " #   Column        Non-Null Count  Dtype\n",
-      "---  ------        --------------  -----\n",
-      " 0   individualid  1464 non-null   Int64\n",
-      " 1   diseaseid     1464 non-null   Int64\n",
-      "dtypes: Int64(2)\n",
-      "memory usage: 25.9 KB\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Phenotypes\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 1277 entries, 0 to 1276\n",
-      "Data columns (total 20 columns):\n",
-      " #   Column                        Non-Null Count  Dtype \n",
-      "---  ------                        --------------  ----- \n",
-      " 0   id                            1277 non-null   Int64 \n",
-      " 1   diseaseid                     1277 non-null   Int64 \n",
-      " 2   individualid                  1277 non-null   Int64 \n",
-      " 3   owned_by                      1277 non-null   Int64 \n",
-      " 4   Phenotype/Inheritance         1277 non-null   string\n",
-      " 5   Phenotype/Age                 1277 non-null   string\n",
-      " 6   Phenotype/Additional          1277 non-null   string\n",
-      " 7   Phenotype/Biochem_param       1277 non-null   string\n",
-      " 8   Phenotype/Age/Onset           1277 non-null   string\n",
-      " 9   Phenotype/Age/Diagnosis       1277 non-null   string\n",
-      " 10  Phenotype/Severity_score      1277 non-null   string\n",
-      " 11  Phenotype/Onset               1277 non-null   string\n",
-      " 12  Phenotype/Protein             1277 non-null   string\n",
-      " 13  Phenotype/Tumor/MSI           1277 non-null   string\n",
-      " 14  Phenotype/Enzyme/CPK          1277 non-null   string\n",
-      " 15  Phenotype/Heart/Myocardium    1277 non-null   string\n",
-      " 16  Phenotype/Lung                1277 non-null   string\n",
-      " 17  Phenotype/Diagnosis/Definite  1277 non-null   string\n",
-      " 18  Phenotype/Diagnosis/Initial   1277 non-null   string\n",
-      " 19  Phenotype/Diagnosis/Criteria  1277 non-null   string\n",
-      "dtypes: Int64(4), string(16)\n",
-      "memory usage: 204.6 KB\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Screenings\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 1465 entries, 0 to 1464\n",
-      "Data columns (total 12 columns):\n",
-      " #   Column               Non-Null Count  Dtype         \n",
-      "---  ------               --------------  -----         \n",
-      " 0   id                   1465 non-null   Int64         \n",
-      " 1   individualid         1465 non-null   Int64         \n",
-      " 2   variants_found       1465 non-null   Int64         \n",
-      " 3   owned_by             1465 non-null   Int64         \n",
-      " 4   created_by           1465 non-null   Int64         \n",
-      " 5   created_date         1465 non-null   datetime64[ns]\n",
-      " 6   edited_by            15 non-null     Int64         \n",
-      " 7   edited_date          15 non-null     datetime64[ns]\n",
-      " 8   Screening/Technique  1465 non-null   string        \n",
-      " 9   Screening/Template   1465 non-null   string        \n",
-      " 10  Screening/Tissue     1465 non-null   string        \n",
-      " 11  Screening/Remarks    1465 non-null   string        \n",
-      "dtypes: Int64(6), datetime64[ns](2), string(4)\n",
-      "memory usage: 146.1 KB\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Screenings_To_Genes\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 1316 entries, 0 to 1315\n",
-      "Data columns (total 2 columns):\n",
-      " #   Column       Non-Null Count  Dtype \n",
-      "---  ------       --------------  ----- \n",
-      " 0   screeningid  1316 non-null   Int64 \n",
-      " 1   geneid       1316 non-null   string\n",
-      "dtypes: Int64(1), string(1)\n",
-      "memory usage: 22.0 KB\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Variants_On_Genome\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 2560 entries, 0 to 2559\n",
-      "Data columns (total 26 columns):\n",
-      " #   Column                                         Non-Null Count  Dtype  \n",
-      "---  ------                                         --------------  -----  \n",
-      " 0   id                                             2560 non-null   Int64  \n",
-      " 1   allele                                         2560 non-null   Int64  \n",
-      " 2   effectid                                       2560 non-null   Int64  \n",
-      " 3   chromosome                                     2560 non-null   Int64  \n",
-      " 4   position_g_start                               2559 non-null   Int64  \n",
-      " 5   position_g_end                                 2559 non-null   Int64  \n",
-      " 6   type                                           2560 non-null   string \n",
-      " 7   average_frequency                              2559 non-null   float64\n",
-      " 8   owned_by                                       2560 non-null   Int64  \n",
-      " 9   VariantOnGenome/DBID                           2560 non-null   string \n",
-      " 10  VariantOnGenome/DNA                            2560 non-null   string \n",
-      " 11  VariantOnGenome/Frequency                      2560 non-null   string \n",
-      " 12  VariantOnGenome/Reference                      2560 non-null   string \n",
-      " 13  VariantOnGenome/Restriction_site               2560 non-null   string \n",
-      " 14  VariantOnGenome/Published_as                   2560 non-null   string \n",
-      " 15  VariantOnGenome/Remarks                        2560 non-null   string \n",
-      " 16  VariantOnGenome/Genetic_origin                 2560 non-null   string \n",
-      " 17  VariantOnGenome/Segregation                    2560 non-null   string \n",
-      " 18  VariantOnGenome/dbSNP                          2560 non-null   string \n",
-      " 19  VariantOnGenome/VIP                            2560 non-null   string \n",
-      " 20  VariantOnGenome/Methylation                    2560 non-null   string \n",
-      " 21  VariantOnGenome/ISCN                           2560 non-null   string \n",
-      " 22  VariantOnGenome/DNA/hg38                       2560 non-null   string \n",
-      " 23  VariantOnGenome/ClinVar                        2560 non-null   string \n",
-      " 24  VariantOnGenome/ClinicalClassification         2560 non-null   string \n",
-      " 25  VariantOnGenome/ClinicalClassification/Method  2560 non-null   string \n",
-      "dtypes: Int64(7), float64(1), string(18)\n",
-      "memory usage: 537.6 KB\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Variants_On_Transcripts\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 2560 entries, 0 to 2559\n",
-      "Data columns (total 11 columns):\n",
-      " #   Column                       Non-Null Count  Dtype \n",
-      "---  ------                       --------------  ----- \n",
-      " 0   id                           2560 non-null   Int64 \n",
-      " 1   transcriptid                 2560 non-null   Int64 \n",
-      " 2   effectid                     2560 non-null   Int64 \n",
-      " 3   position_c_start             2559 non-null   Int64 \n",
-      " 4   position_c_start_intron      2560 non-null   Int64 \n",
-      " 5   position_c_end               2559 non-null   Int64 \n",
-      " 6   position_c_end_intron        2560 non-null   Int64 \n",
-      " 7   VariantOnTranscript/DNA      2560 non-null   string\n",
-      " 8   VariantOnTranscript/RNA      2560 non-null   string\n",
-      " 9   VariantOnTranscript/Protein  2560 non-null   string\n",
-      " 10  VariantOnTranscript/Exon     2560 non-null   string\n",
-      "dtypes: Int64(7), string(4)\n",
-      "memory usage: 237.6 KB\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    },
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "Screenings_To_Variants\n",
-      "<class 'pandas.core.frame.DataFrame'>\n",
-      "RangeIndex: 2168 entries, 0 to 2167\n",
-      "Data columns (total 2 columns):\n",
-      " #   Column       Non-Null Count  Dtype\n",
-      "---  ------       --------------  -----\n",
-      " 0   screeningid  2168 non-null   Int64\n",
-      " 1   variantid    2168 non-null   Int64\n",
-      "dtypes: Int64(2)\n",
-      "memory usage: 38.2 KB\n"
-     ]
-    },
-    {
-     "data": {
-      "text/plain": [
-       "None"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    }
-   ],
-   "execution_count": 7
-  },
-  {
-   "cell_type": "code",
-   "id": "c968af1617be40db",
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-08-06T14:19:36.920697Z",
-     "start_time": "2024-08-06T14:19:36.151683Z"
-    }
-   },
-   "source": [
-    "save_lovd_as_vcf(data[\"Variants_On_Genome\"], \"./lovd.vcf\")"
-   ],
-   "outputs": [
-    {
-     "ename": "KeyError",
-     "evalue": "'Variants_On_Genome'",
-     "output_type": "error",
-     "traceback": [
-      "\u001B[1;31m---------------------------------------------------------------------------\u001B[0m",
-      "\u001B[1;31mKeyError\u001B[0m                                  Traceback (most recent call last)",
-      "File \u001B[1;32m~\\PycharmProjects\\KathChatGPT\\.venv\\Lib\\site-packages\\pandas\\core\\indexes\\base.py:3805\u001B[0m, in \u001B[0;36mIndex.get_loc\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   3804\u001B[0m \u001B[38;5;28;01mtry\u001B[39;00m:\n\u001B[1;32m-> 3805\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43m_engine\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mget_loc\u001B[49m\u001B[43m(\u001B[49m\u001B[43mcasted_key\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   3806\u001B[0m \u001B[38;5;28;01mexcept\u001B[39;00m \u001B[38;5;167;01mKeyError\u001B[39;00m \u001B[38;5;28;01mas\u001B[39;00m err:\n",
-      "File \u001B[1;32mindex.pyx:167\u001B[0m, in \u001B[0;36mpandas._libs.index.IndexEngine.get_loc\u001B[1;34m()\u001B[0m\n",
-      "File \u001B[1;32mindex.pyx:196\u001B[0m, in \u001B[0;36mpandas._libs.index.IndexEngine.get_loc\u001B[1;34m()\u001B[0m\n",
-      "File \u001B[1;32mpandas\\\\_libs\\\\hashtable_class_helper.pxi:7081\u001B[0m, in \u001B[0;36mpandas._libs.hashtable.PyObjectHashTable.get_item\u001B[1;34m()\u001B[0m\n",
-      "File \u001B[1;32mpandas\\\\_libs\\\\hashtable_class_helper.pxi:7089\u001B[0m, in \u001B[0;36mpandas._libs.hashtable.PyObjectHashTable.get_item\u001B[1;34m()\u001B[0m\n",
-      "\u001B[1;31mKeyError\u001B[0m: 'Variants_On_Genome'",
-      "\nThe above exception was the direct cause of the following exception:\n",
-      "\u001B[1;31mKeyError\u001B[0m                                  Traceback (most recent call last)",
-      "Cell \u001B[1;32mIn[8], line 1\u001B[0m\n\u001B[1;32m----> 1\u001B[0m \u001B[43msave_lovd_as_vcf\u001B[49m\u001B[43m(\u001B[49m\u001B[43mdata\u001B[49m\u001B[43m[\u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mVariants_On_Genome\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m]\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43m./lovd.vcf\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m)\u001B[49m\n",
-      "File \u001B[1;32m~\\PycharmProjects\\kath\\api\\data\\refactoring.py:140\u001B[0m, in \u001B[0;36msave_lovd_as_vcf\u001B[1;34m(data, save_to)\u001B[0m\n\u001B[0;32m    134\u001B[0m \u001B[38;5;28;01mdef\u001B[39;00m \u001B[38;5;21msave_lovd_as_vcf\u001B[39m(data, save_to\u001B[38;5;241m=\u001B[39m\u001B[38;5;124m\"\u001B[39m\u001B[38;5;124m./lovd.vcf\u001B[39m\u001B[38;5;124m\"\u001B[39m):\n\u001B[0;32m    135\u001B[0m \u001B[38;5;250m    \u001B[39m\u001B[38;5;124;03m\"\"\"\u001B[39;00m\n\u001B[0;32m    136\u001B[0m \u001B[38;5;124;03m    Gets hg38 variants from LOVD and saves as VCF file.\u001B[39;00m\n\u001B[0;32m    137\u001B[0m \u001B[38;5;124;03m    :param DataFrame data: LOVD DataFrame with data\u001B[39;00m\n\u001B[0;32m    138\u001B[0m \u001B[38;5;124;03m    :param str save_to: path where to save VCF file.\u001B[39;00m\n\u001B[0;32m    139\u001B[0m \u001B[38;5;124;03m    \"\"\"\u001B[39;00m\n\u001B[1;32m--> 140\u001B[0m     df \u001B[38;5;241m=\u001B[39m \u001B[43mdata\u001B[49m\u001B[43m[\u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mVariants_On_Genome\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m]\u001B[49m\n\u001B[0;32m    141\u001B[0m     \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mVariantOnGenome/DNA/hg38\u001B[39m\u001B[38;5;124m\"\u001B[39m \u001B[38;5;129;01mnot\u001B[39;00m \u001B[38;5;129;01min\u001B[39;00m df\u001B[38;5;241m.\u001B[39mcolumns:\n\u001B[0;32m    142\u001B[0m         \u001B[38;5;28;01mraise\u001B[39;00m \u001B[38;5;167;01mValueError\u001B[39;00m(\u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mVariantOnGenome/DNA/hg38 is not in the LOVD DataFrame.\u001B[39m\u001B[38;5;124m\"\u001B[39m)\n",
-      "File \u001B[1;32m~\\PycharmProjects\\KathChatGPT\\.venv\\Lib\\site-packages\\pandas\\core\\frame.py:4102\u001B[0m, in \u001B[0;36mDataFrame.__getitem__\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   4100\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39mcolumns\u001B[38;5;241m.\u001B[39mnlevels \u001B[38;5;241m>\u001B[39m \u001B[38;5;241m1\u001B[39m:\n\u001B[0;32m   4101\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_getitem_multilevel(key)\n\u001B[1;32m-> 4102\u001B[0m indexer \u001B[38;5;241m=\u001B[39m \u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mcolumns\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mget_loc\u001B[49m\u001B[43m(\u001B[49m\u001B[43mkey\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   4103\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m is_integer(indexer):\n\u001B[0;32m   4104\u001B[0m     indexer \u001B[38;5;241m=\u001B[39m [indexer]\n",
-      "File \u001B[1;32m~\\PycharmProjects\\KathChatGPT\\.venv\\Lib\\site-packages\\pandas\\core\\indexes\\base.py:3812\u001B[0m, in \u001B[0;36mIndex.get_loc\u001B[1;34m(self, key)\u001B[0m\n\u001B[0;32m   3807\u001B[0m     \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28misinstance\u001B[39m(casted_key, \u001B[38;5;28mslice\u001B[39m) \u001B[38;5;129;01mor\u001B[39;00m (\n\u001B[0;32m   3808\u001B[0m         \u001B[38;5;28misinstance\u001B[39m(casted_key, abc\u001B[38;5;241m.\u001B[39mIterable)\n\u001B[0;32m   3809\u001B[0m         \u001B[38;5;129;01mand\u001B[39;00m \u001B[38;5;28many\u001B[39m(\u001B[38;5;28misinstance\u001B[39m(x, \u001B[38;5;28mslice\u001B[39m) \u001B[38;5;28;01mfor\u001B[39;00m x \u001B[38;5;129;01min\u001B[39;00m casted_key)\n\u001B[0;32m   3810\u001B[0m     ):\n\u001B[0;32m   3811\u001B[0m         \u001B[38;5;28;01mraise\u001B[39;00m InvalidIndexError(key)\n\u001B[1;32m-> 3812\u001B[0m     \u001B[38;5;28;01mraise\u001B[39;00m \u001B[38;5;167;01mKeyError\u001B[39;00m(key) \u001B[38;5;28;01mfrom\u001B[39;00m \u001B[38;5;21;01merr\u001B[39;00m\n\u001B[0;32m   3813\u001B[0m \u001B[38;5;28;01mexcept\u001B[39;00m \u001B[38;5;167;01mTypeError\u001B[39;00m:\n\u001B[0;32m   3814\u001B[0m     \u001B[38;5;66;03m# If we have a listlike key, _check_indexing_error will raise\u001B[39;00m\n\u001B[0;32m   3815\u001B[0m     \u001B[38;5;66;03m#  InvalidIndexError. Otherwise we fall through and re-raise\u001B[39;00m\n\u001B[0;32m   3816\u001B[0m     \u001B[38;5;66;03m#  the TypeError.\u001B[39;00m\n\u001B[0;32m   3817\u001B[0m     \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39m_check_indexing_error(key)\n",
-      "\u001B[1;31mKeyError\u001B[0m: 'Variants_On_Genome'"
-     ]
-    }
-   ],
-   "execution_count": 8
-  },
-  {
-   "cell_type": "code",
-   "id": "c7ff16903e0c52bd",
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-08-06T14:19:36.921706Z",
-     "start_time": "2024-08-06T14:19:36.921706Z"
-    }
-   },
-   "source": [
-    "from subprocess import Popen\n",
-    "\n",
-    "\n",
-    "process = Popen(\"spliceai -I ./lovd.vcf -O ./lovd_output.vcf -R ../tools/spliceai/hg38.fa -A grch38\".split())\n",
-    "process.wait()"
-   ],
-   "outputs": [],
-   "execution_count": null
-  },
-  {
-   "cell_type": "code",
-   "id": "0514ccc3-5c91-41ad-ab15-f4158030ea14",
-   "metadata": {},
-   "source": [
-    "from api.tools import get_revel_scores\n",
-    "\n",
-    "chromosome = 6\n",
-    "position = 65655758\n",
-    "\n",
-    "results = get_revel_scores(chromosome, position)\n",
-    "\n",
-    "display(results)"
-   ],
-   "outputs": [],
-   "execution_count": null
-  },
-  {
-   "metadata": {},
-   "cell_type": "code",
-   "source": [
-    "from api.data import request_clinvar_api_data\n",
-    "\n",
-    "some_id = 1519786\n",
-    "try:\n",
-    "    frame = request_clinvar_api_data(some_id)\n",
-    "    display(frame)\n",
-    "except Exception as e:\n",
-    "    print(e)\n"
-   ],
-   "id": "576b841842a7ab61",
-   "outputs": [],
-   "execution_count": null
-  },
-  {
-   "metadata": {},
-   "cell_type": "code",
-   "source": [
-    "import requests\n",
-    "from api.data import request_clinvar_api_data\n",
-    "\n",
-    "gene_id = '1519786'\n",
-    "# with gene_id = '1519787' error is raised\n",
-    "\n",
-    "#TODO inside request_clinvar_api_data\n",
-    "# 1. dinamically expand genes to dataframe (might be one, might be more)\n",
-    "# 2. dinamically expand variation_loc to dataframe (might be one, might be more)\n",
-    "frames = request_clinvar_api_data(gene_id)\n",
-    "\n",
-    "display(frames)"
-   ],
-   "id": "b21c3487476b684f",
-   "outputs": [],
-   "execution_count": null
-  },
-  {
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-08-06T14:58:14.898227Z",
-     "start_time": "2024-08-06T14:58:14.228473Z"
-    }
-   },
-   "cell_type": "code",
-   "source": [
-    "import requests\n",
-    "\n",
-    "gene_id = '1519785'\n",
-    "\n",
-    "path = f\"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id={gene_id}&retmode=json\"\n",
-    "\n",
-    "request = requests.get(path)\n",
-    "\n",
-    "if request.status_code != 200:\n",
-    "    raise ValueError(f\"Request failed with status code {request.status_code}\")\n",
-    "\n",
-    "data = request.json()\n",
-    "\n",
-    " # Extract the 'result' part of the JSON\n",
-    "results = data['result']\n",
-    "\n",
-    "# Extract the 'uids' part of the JSON\n",
-    "flattened_data = []\n",
-    "\n",
-    "for uid in results['uids']:\n",
-    "    entry = results[uid]\n",
-    "\n",
-    "    # Using pd.json_normalize to flatten the JSON data\n",
-    "    flattened_entry = pd.json_normalize(entry, sep='_')\n",
-    "\n",
-    "    flattened_variation_set = pd.json_normalize(flattened_entry['variation_set'][0], sep='_')\n",
-    "    flattened_variation_xrefs = pd.json_normalize(flattened_variation_set['variation_xrefs'][0], sep='_')\n",
-    "    \n",
-    "    variation_loc_size = len(flattened_variation_set['variation_loc'][0]) \n",
-    "    for i in range(variation_loc_size):\n",
-    "        flattened_variation_loc = pd.json_normalize(flattened_variation_set['variation_loc'][0][i], sep='_')\n",
-    "        flattened_variation_loc = flattened_variation_loc.add_prefix(f'{i}_')\n",
-    "        flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_loc], axis=1)\n",
-    "    \n",
-    "    allele_freq_set_size = len(flattened_variation_set['allele_freq_set'][0])\n",
-    "    for i in range(allele_freq_set_size):\n",
-    "        flattened_allele_freq_set = pd.json_normalize(flattened_variation_set['allele_freq_set'][0][i], sep='_')\n",
-    "        flattened_allele_freq_set = flattened_allele_freq_set.add_prefix(f'{i}_')\n",
-    "        flattened_variation_set = pd.concat([flattened_variation_set, flattened_allele_freq_set], axis=1)\n",
-    "    \n",
-    "    gene_size = len(flattened_entry['genes'][0])\n",
-    "    for i in range(gene_size):\n",
-    "        flattened_genes = pd.json_normalize(flattened_entry['genes'][0][i], sep='_')\n",
-    "        flattened_genes = flattened_genes.add_prefix(f'{i}_')\n",
-    "        flattened_entry = pd.concat([flattened_entry, flattened_genes], axis=1)\n",
-    "\n",
-    "    gremline_classification_trait_set_size = len(flattened_entry['germline_classification_trait_set'][0])\n",
-    "    for i in range(gremline_classification_trait_set_size):\n",
-    "        flattened_germline_classification_trait_set = pd.json_normalize(flattened_entry['germline_classification_trait_set'][0][i], sep='_')\n",
-    "        flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.add_prefix(f'{i}_')\n",
-    "        \n",
-    "        trait_xrefs_size = len(flattened_germline_classification_trait_set[f'{i}_trait_xrefs'][0])\n",
-    "        for j in range(trait_xrefs_size):\n",
-    "            flattened_trait_xrefs = pd.json_normalize(flattened_germline_classification_trait_set[f'{i}_trait_xrefs'][0][j], sep='_')\n",
-    "            flattened_trait_xrefs = flattened_trait_xrefs.add_prefix(f'{j}_')\n",
-    "\n",
-    "            flattened_germline_classification_trait_set = pd.concat([flattened_germline_classification_trait_set, flattened_trait_xrefs], axis=1)\n",
-    "    \n",
-    "        flattened_germline_classification_trait_set = flattened_germline_classification_trait_set.drop(columns=[f'{i}_trait_xrefs'], axis=1)\n",
-    "        flattened_entry = pd.concat([flattened_entry, flattened_germline_classification_trait_set], axis=1)\n",
-    "        \n",
-    "    # dropping extracted nests\n",
-    "    flattened_entry = flattened_entry.drop(columns=['variation_set', 'genes', 'germline_classification_trait_set'],axis=1)\n",
-    "    flattened_variation_set = flattened_variation_set.drop(columns=['variation_xrefs', 'variation_loc', 'allele_freq_set'], axis=1)\n",
-    "\n",
-    "    flattened_variation_set = pd.concat([flattened_variation_set, flattened_variation_xrefs], axis=1)\n",
-    "    flattened_variation_set = pd.concat([flattened_variation_set, flattened_allele_freq_set], axis=1)\n",
-    "\n",
-    "    flattened_entry = pd.concat([flattened_entry, flattened_variation_set], axis=1)\n",
-    "    flattened_entry = pd.concat([flattened_entry, flattened_germline_classification_trait_set], axis=1)\n",
-    "\n",
-    "    # Append the flattened entry to the list\n",
-    "    flattened_data.append(flattened_entry)\n",
-    "\n",
-    "    # Concatenate all flattened entries into a single DataFrame\n",
-    "df = pd.concat(flattened_data, ignore_index=True)\n",
-    "\n",
-    "display(df)\n"
-   ],
-   "id": "7e9ca83a40035c14",
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "       uid                   obj_type  ... 3_db_source 3_db_id\n",
-       "0  1519785  single nucleotide variant  ...        OMIM  614702\n",
-       "\n",
-       "[1 rows x 110 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>uid</th>\n",
-       "      <th>obj_type</th>\n",
-       "      <th>accession</th>\n",
-       "      <th>accession_version</th>\n",
-       "      <th>title</th>\n",
-       "      <th>record_status</th>\n",
-       "      <th>gene_sort</th>\n",
-       "      <th>chr_sort</th>\n",
-       "      <th>location_sort</th>\n",
-       "      <th>variation_set_name</th>\n",
-       "      <th>variation_set_id</th>\n",
-       "      <th>molecular_consequence_list</th>\n",
-       "      <th>protein_change</th>\n",
-       "      <th>fda_recognized_database</th>\n",
-       "      <th>supporting_submissions_scv</th>\n",
-       "      <th>supporting_submissions_rcv</th>\n",
-       "      <th>germline_classification_description</th>\n",
-       "      <th>germline_classification_last_evaluated</th>\n",
-       "      <th>germline_classification_review_status</th>\n",
-       "      <th>germline_classification_fda_recognized_database</th>\n",
-       "      <th>clinical_impact_classification_description</th>\n",
-       "      <th>clinical_impact_classification_last_evaluated</th>\n",
-       "      <th>clinical_impact_classification_review_status</th>\n",
-       "      <th>clinical_impact_classification_fda_recognized_database</th>\n",
-       "      <th>clinical_impact_classification_trait_set</th>\n",
-       "      <th>oncogenicity_classification_description</th>\n",
-       "      <th>oncogenicity_classification_last_evaluated</th>\n",
-       "      <th>oncogenicity_classification_review_status</th>\n",
-       "      <th>oncogenicity_classification_fda_recognized_database</th>\n",
-       "      <th>oncogenicity_classification_trait_set</th>\n",
-       "      <th>0_symbol</th>\n",
-       "      <th>0_geneid</th>\n",
-       "      <th>0_strand</th>\n",
-       "      <th>0_source</th>\n",
-       "      <th>0_trait_name</th>\n",
-       "      <th>0_db_source</th>\n",
-       "      <th>0_db_id</th>\n",
-       "      <th>1_db_source</th>\n",
-       "      <th>1_db_id</th>\n",
-       "      <th>2_db_source</th>\n",
-       "      <th>...</th>\n",
-       "      <th>1_stop</th>\n",
-       "      <th>1_inner_start</th>\n",
-       "      <th>1_inner_stop</th>\n",
-       "      <th>1_outer_start</th>\n",
-       "      <th>1_outer_stop</th>\n",
-       "      <th>1_display_start</th>\n",
-       "      <th>1_display_stop</th>\n",
-       "      <th>1_assembly_acc_ver</th>\n",
-       "      <th>1_annotation_release</th>\n",
-       "      <th>1_alt</th>\n",
-       "      <th>1_ref</th>\n",
-       "      <th>0_source</th>\n",
-       "      <th>0_value</th>\n",
-       "      <th>0_minor_allele</th>\n",
-       "      <th>1_source</th>\n",
-       "      <th>1_value</th>\n",
-       "      <th>1_minor_allele</th>\n",
-       "      <th>2_source</th>\n",
-       "      <th>2_value</th>\n",
-       "      <th>2_minor_allele</th>\n",
-       "      <th>3_source</th>\n",
-       "      <th>3_value</th>\n",
-       "      <th>3_minor_allele</th>\n",
-       "      <th>4_source</th>\n",
-       "      <th>4_value</th>\n",
-       "      <th>4_minor_allele</th>\n",
-       "      <th>db_source</th>\n",
-       "      <th>db_id</th>\n",
-       "      <th>4_source</th>\n",
-       "      <th>4_value</th>\n",
-       "      <th>4_minor_allele</th>\n",
-       "      <th>0_trait_name</th>\n",
-       "      <th>0_db_source</th>\n",
-       "      <th>0_db_id</th>\n",
-       "      <th>1_db_source</th>\n",
-       "      <th>1_db_id</th>\n",
-       "      <th>2_db_source</th>\n",
-       "      <th>2_db_id</th>\n",
-       "      <th>3_db_source</th>\n",
-       "      <th>3_db_id</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>1519785</td>\n",
-       "      <td>single nucleotide variant</td>\n",
-       "      <td>VCV001519785</td>\n",
-       "      <td>VCV001519785.</td>\n",
-       "      <td>NM_012123.4(MTO1):c.1465+4A&gt;T</td>\n",
-       "      <td></td>\n",
-       "      <td>MTO1</td>\n",
+       "      <td>EYS</td>\n",
        "      <td>06</td>\n",
-       "      <td>00000000000073482248</td>\n",
+       "      <td>00000000000064902416</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>[intron variant]</td>\n",
+       "      <td>[frameshift variant]</td>\n",
+       "      <td>D904fs</td>\n",
        "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV002308196]</td>\n",
-       "      <td>[RCV002024803]</td>\n",
-       "      <td>Uncertain significance</td>\n",
-       "      <td>2022/07/06 00:00</td>\n",
-       "      <td>criteria provided, single submitter</td>\n",
+       "      <td>[SCV000020713]</td>\n",
+       "      <td>[RCV000000564]</td>\n",
+       "      <td>Pathogenic</td>\n",
+       "      <td>2008/11/01 00:00</td>\n",
+       "      <td>no assertion criteria provided</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td>1/01/01 00:00</td>\n",
@@ -3269,61 +1332,61 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td>[]</td>\n",
-       "      <td>MTO1</td>\n",
-       "      <td>25821</td>\n",
-       "      <td>+</td>\n",
-       "      <td>submitted</td>\n",
-       "      <td>Mitochondrial hypertrophic cardiomyopathy with...</td>\n",
-       "      <td>Orphanet</td>\n",
-       "      <td>314637</td>\n",
-       "      <td>MedGen</td>\n",
-       "      <td>C4749921</td>\n",
-       "      <td>MONDO</td>\n",
-       "      <td>...</td>\n",
-       "      <td>74191971</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>74191971</td>\n",
-       "      <td>74191971</td>\n",
-       "      <td>GCF_000001405.25</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>Exome Aggregation Consortium (ExAC)</td>\n",
-       "      <td>0.00002</td>\n",
-       "      <td></td>\n",
-       "      <td>The Genome Aggregation Database (gnomAD)</td>\n",
-       "      <td>0.00003</td>\n",
-       "      <td></td>\n",
-       "      <td>The Genome Aggregation Database (gnomAD), exomes</td>\n",
-       "      <td>0.00004</td>\n",
-       "      <td></td>\n",
-       "      <td>Trans-Omics for Precision Medicine (TOPMed)</td>\n",
-       "      <td>0.00005</td>\n",
-       "      <td></td>\n",
-       "      <td>1000 Genomes Project</td>\n",
-       "      <td>0.00020</td>\n",
-       "      <td>T</td>\n",
-       "      <td>dbSNP</td>\n",
-       "      <td>555094677</td>\n",
-       "      <td>1000 Genomes Project</td>\n",
-       "      <td>0.00020</td>\n",
-       "      <td>T</td>\n",
-       "      <td>Mitochondrial hypertrophic cardiomyopathy with...</td>\n",
-       "      <td>Orphanet</td>\n",
-       "      <td>314637</td>\n",
-       "      <td>MedGen</td>\n",
-       "      <td>C4749921</td>\n",
-       "      <td>MONDO</td>\n",
-       "      <td>MONDO:0013865</td>\n",
-       "      <td>OMIM</td>\n",
-       "      <td>614702</td>\n",
+       "      <td>15573</td>\n",
+       "      <td>NM_001142800.2(EYS):c.2710_2726del (p.Asp904fs)</td>\n",
+       "      <td>c.2710_2726del</td>\n",
+       "      <td>[]</td>\n",
+       "      <td>Deletion</td>\n",
+       "      <td>NC_000006.12:64902415:ACCATATCTTCACAGTCACCATA:...</td>\n",
+       "      <td>current</td>\n",
+       "      <td>GRCh38</td>\n",
+       "      <td>6</td>\n",
+       "      <td>6q12</td>\n",
+       "      <td>...</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
+       "      <td>NaN</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
-       "<p>1 rows × 110 columns</p>\n",
+       "<p>4783 rows × 4428 columns</p>\n",
        "</div>"
       ]
      },
@@ -3331,15 +1394,7 @@
      "output_type": "display_data"
     }
    ],
-   "execution_count": 35
-  },
-  {
-   "metadata": {},
-   "cell_type": "code",
-   "source": "",
-   "id": "7df7d0cb3b874157",
-   "outputs": [],
-   "execution_count": null
+   "execution_count": 37
   }
  ],
  "metadata": {

From 35f43bf27f227ecf2fc4529d4d2ccc9f34abe409 Mon Sep 17 00:00:00 2001
From: Kajus CC <42713684+KajusC@users.noreply.github.com>
Date: Mon, 19 Aug 2024 11:25:54 +0300
Subject: [PATCH 04/10] Reformatted the parse

---
 api/data/__init__.py    |    1 +
 api/data/refactoring.py |   81 ++-
 tests/pipeline.ipynb    | 1295 +++++----------------------------------
 3 files changed, 178 insertions(+), 1199 deletions(-)

diff --git a/api/data/__init__.py b/api/data/__init__.py
index 34caf42..5ccab15 100644
--- a/api/data/__init__.py
+++ b/api/data/__init__.py
@@ -58,4 +58,5 @@
     save_lovd_as_vcf,
     request_clinvar_api_data,
     get_variant_ids_from_clinvar_name_api,
+    extract_nested_json,
 )
diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index 79cbe78..09eaca1 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -3,7 +3,6 @@
 import os
 import logging
 
-import pandas
 import requests
 
 import pandas as pd
@@ -160,7 +159,7 @@ def save_lovd_as_vcf(data, save_to="./lovd.vcf"):
             f.write("\n")
 
 
-def get_variant_ids_from_clinvar_name_api(name: str, count: int = 100):
+def get_variant_ids_from_clinvar_name_api(name, count=100):
     """
     Extracts variant ids from ClinVar `name` variable. /n
     key of dictionary is the size of the list of ids.
@@ -172,9 +171,8 @@ def get_variant_ids_from_clinvar_name_api(name: str, count: int = 100):
     """
 
     result = {}
-
-    separator = ","
-    clinvar_url = f"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=clinvar&term={name}&retmode=json&retmax={count}"
+    base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=clinvar&term="
+    clinvar_url = f"{base_url}{name}&retmode=json&retmax={count}"
 
     request = requests.get(clinvar_url)
 
@@ -183,33 +181,46 @@ def get_variant_ids_from_clinvar_name_api(name: str, count: int = 100):
 
     data = request.json()
 
-    ids = data['esearchresult']['idlist']
-
-    result['idlist'] = ids
+    result['idlist'] = data['esearchresult']['idlist']
     result['count'] = data['esearchresult']['count']
 
     return result
 
 
-def request_clinvar_api_data(gene_id: str):
+def extract_nested_json(flat_parsed, parsed_from, required_column, prefix, join_prefix):
+    """
+    Extracts nested JSON data from dictionary.
+
+    :param DataFrame parsed_from: normalised JSON data
+    :param str required_column: column to extract
+    :param str prefix: prefix for extracted columns
+    """
+
+    data_set = parsed_from.get(required_column, [])
+    for idx, data in enumerate(data_set):
+        flat_data = pd.json_normalize(data, sep='_')
+        flat_data = flat_data.add_prefix(f'{prefix}_{idx}_')
+        flat_parsed = flat_parsed.join(flat_data, rsuffix=f'_{idx}_{join_prefix}')
+
+
+def request_clinvar_api_data(gene_id):
     """
     Requests ClinVar API for data about variant with given id.
     Converts it to pandas dataframe.
 
     :param str gene_id: id of variant (may be multiple)
-    :returns: dataframe from ClinVar API
-    :rtype: dataframe
+    :returns: DataFrame from ClinVar API
+    :rtype: DataFrame
     """
-    clinvar_url = f"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id={gene_id}&retmode=json"
+    base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id="
+    clinvar_url = f"{base_url}{gene_id}&retmode=json"
 
     request = requests.get(clinvar_url)
 
     if request.status_code != 200:
         raise ValueError(f"Request failed with status code {request.status_code}")
 
-    data = request.json()
-
-    results = data['result']
+    results = request.json()['result']
 
     flattened_data = []
 
@@ -223,53 +234,41 @@ def request_clinvar_api_data(gene_id: str):
             flat_var_set = pd.json_normalize(var_set, sep='_')
             flat_var_set = flat_var_set.add_prefix(f'variation_set_{idx}_')
 
-            variation_loc = var_set.get('variation_loc', [])
-            for loc_idx, loc in enumerate(variation_loc):
-                flat_loc = pd.json_normalize(loc, sep='_')
-                flat_loc = flat_loc.add_prefix(f'variation_set_{idx}_loc_{loc_idx}_')
-                flat_var_set = flat_var_set.join(flat_loc, rsuffix=f'_{idx}_{loc_idx}_vl')
-
-            var_xrefs = var_set.get('variation_xrefs', [])
-            for var_xrefs_idx, var_xref in enumerate(var_xrefs):
-                flat_var_xrefs = pd.json_normalize(var_xref, sep='_')
-                flat_var_xrefs = flat_var_xrefs.add_prefix(f'variation_set_{idx}_var_xrefs_{var_xrefs_idx}_')
-                flat_var_set = flat_var_set.join(flat_var_xrefs, rsuffix=f'_{idx}_{var_xrefs_idx}_vx')
-
-            allele_freq = var_set.get('allele_freq_set', [])
-            for allele_freq_idx, allele in enumerate(allele_freq):
-                flat_allele = pd.json_normalize(allele, sep='_')
-                flat_allele = flat_allele.add_prefix(f'variation_set_{idx}_allele_freq_{allele_freq_idx}_')
-                flat_var_set = flat_var_set.join(flat_allele, rsuffix=f'_{idx}_{allele_freq_idx}_af')
+            extract_nested_json(flat_var_set, var_set, 'variation_loc', f'variation_set_{idx}_loc', 'loc')
+            extract_nested_json(flat_var_set, var_set, 'variation_xrefs', f'variation_set_{idx}_xrefs', 'xrefs')
+            extract_nested_json(flat_var_set, var_set, 'allele_freq_set', f'variation_set_{idx}_allele_freq', 'allele_freq')
 
             flat_var_set = flat_var_set.drop(
-                columns=[f'variation_set_{idx}_variation_loc', f'variation_set_{idx}_variation_xrefs',
+                columns=[f'variation_set_{idx}_variation_loc',
+                         f'variation_set_{idx}_variation_xrefs',
                          f'variation_set_{idx}_allele_freq_set'])
             flattened_entry = flattened_entry.join(flat_var_set, rsuffix=f'_{idx}_vs')
 
+        # this extraction is different from the previous ones
+
         genes = flattened_entry.at[0, 'genes']
         for idx, gene in enumerate(genes):
             flat_genes = pd.json_normalize(gene, sep='_')
             flat_genes = flat_genes.add_prefix(f'gene_{idx}_')
             flattened_entry = flattened_entry.join(flat_genes, rsuffix=f'_{idx}_g')
 
-        germline_classification_trait_set = flattened_entry.at[0, 'germline_classification_trait_set']
+        germline_classification_trait_set = flattened_entry.at[0,
+        'germline_classification_trait_set']
         for idx, germline_set in enumerate(germline_classification_trait_set):
             flat_germline_set = pd.json_normalize(germline_set, sep='_')
             flat_germline_set = flat_germline_set.add_prefix(f'germline_set_{idx}_')
 
-            trait_xrefs = flat_germline_set.at[0, f'germline_set_{idx}_trait_xrefs']
-            for jdx, trait_xref in enumerate(trait_xrefs):
-                flat_trait_xrefs = pd.json_normalize(trait_xref, sep='_')
-                flat_trait_xrefs = flat_trait_xrefs.add_prefix(f'trait_xref_{jdx}_')
-                flat_germline_set = flat_germline_set.join(flat_trait_xrefs, rsuffix=f'_{idx}_{jdx}_tx')
+            extract_nested_json(flat_germline_set, germline_set, 'trait_xrefs', f'germline_set_{idx}_trait_xrefs', 'trait_xrefs')
 
             flat_germline_set = flat_germline_set.drop(columns=[f'germline_set_{idx}_trait_xrefs'])
             flattened_entry = flattened_entry.join(flat_germline_set, rsuffix=f'_{idx}_gls')
 
-        flattened_entry = flattened_entry.drop(columns=['variation_set', 'genes', 'germline_classification_trait_set'])
+        flattened_entry = flattened_entry.drop(columns=['variation_set',
+                                                        'genes',
+                                                        'germline_classification_trait_set'])
 
         flattened_data.append(flattened_entry)
 
     df = pd.concat(flattened_data, ignore_index=True)
 
-    return df
\ No newline at end of file
+    return df
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index 0fb9cfb..91f5df4 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -9,8 +9,8 @@
      "outputs_hidden": true
     },
     "ExecuteTime": {
-     "end_time": "2024-08-07T12:32:22.837138Z",
-     "start_time": "2024-08-07T12:32:21.979038Z"
+     "end_time": "2024-08-19T08:25:04.230992Z",
+     "start_time": "2024-08-19T08:25:03.038301Z"
     }
    },
    "source": [
@@ -131,231 +131,30 @@
    "outputs": [],
    "execution_count": null
   },
-  {
-   "metadata": {},
-   "cell_type": "code",
-   "source": [
-    "import requests\n",
-    "from api.data import request_clinvar_api_data\n",
-    "\n",
-    "gene_id = '1519785,1519786'\n",
-    "\n",
-    "frames = request_clinvar_api_data(gene_id)\n",
-    "\n",
-    "display(frames)"
-   ],
-   "id": "b21c3487476b684f",
-   "outputs": [],
-   "execution_count": null
-  },
-  {
-   "metadata": {},
-   "cell_type": "code",
-   "source": [
-    "gene_id = '1519785'\n",
-    "\n",
-    "\n",
-    "clinvar_url = f\"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id={gene_id}&retmode=json\"\n",
-    "\n",
-    "request = requests.get(clinvar_url)\n",
-    "\n",
-    "if request.status_code != 200:\n",
-    "    raise ValueError(f\"Request failed with status code {request.status_code}\")\n",
-    "\n",
-    "data = request.json()\n",
-    "\n",
-    "# Extract the 'result' part of the JSON\n",
-    "results = data['result']\n",
-    "\n",
-    "# Extract the 'uids' part of the JSON\n",
-    "flattened_data = []\n",
-    "\n",
-    "for uid in results['uids']:\n",
-    "    entry = results[uid]\n",
-    "\n",
-    "    # Using pd.json_normalize to flatten the JSON data\n",
-    "    flattened_entry = pd.json_normalize(entry, sep='_')\n",
-    "\n",
-    "    # Process variation_set\n",
-    "    variation_set = flattened_entry.at[0, 'variation_set']\n",
-    "    for idx, var_set in enumerate(variation_set):\n",
-    "        flat_var_set = pd.json_normalize(var_set, sep='_')\n",
-    "        flat_var_set = flat_var_set.add_prefix(f'variation_set_{idx}_')\n",
-    "\n",
-    "        # Process variation_loc within variation_set\n",
-    "        variation_loc = var_set.get('variation_loc', [])\n",
-    "        for loc_idx, loc in enumerate(variation_loc):\n",
-    "            flat_loc = pd.json_normalize(loc, sep='_')\n",
-    "            flat_loc = flat_loc.add_prefix(f'variation_set_{idx}_loc_{loc_idx}_')\n",
-    "            flat_var_set = flat_var_set.join(flat_loc, rsuffix=f'_{idx}_{loc_idx}_vl')\n",
-    "        \n",
-    "        var_xrefs = var_set.get('variation_xrefs', [])\n",
-    "        for var_xrefs_idx, var_xref in enumerate(var_xrefs):\n",
-    "            flat_var_xrefs = pd.json_normalize(var_xref, sep='_')\n",
-    "            flat_var_xrefs = flat_var_xrefs.add_prefix(f'variation_set_{idx}_var_xrefs_{var_xrefs_idx}_')\n",
-    "            flat_var_set = flat_var_set.join(flat_var_xrefs, rsuffix=f'_{idx}_{var_xrefs_idx}_vx')\n",
-    "\n",
-    "\n",
-    "        allele_freq = var_set.get('allele_freq_set', [])\n",
-    "        for allele_freq_idx, allele in enumerate(allele_freq):\n",
-    "            flat_allele = pd.json_normalize(allele, sep='_')\n",
-    "            flat_allele = flat_allele.add_prefix(f'variation_set_{idx}_allele_freq_{allele_freq_idx}_')\n",
-    "            flat_var_set = flat_var_set.join(flat_allele, rsuffix=f'_{idx}_{allele_freq_idx}_af')\n",
-    "            \n",
-    "        # drop original nested lists columns\n",
-    "        flat_var_set = flat_var_set.drop(columns=[f'variation_set_{idx}_variation_loc', f'variation_set_{idx}_variation_xrefs', f'variation_set_{idx}_allele_freq_set'])\n",
-    "        \n",
-    "        flattened_entry = flattened_entry.join(flat_var_set, rsuffix=f'_{idx}_vs')\n",
-    "\n",
-    "    # Process genes\n",
-    "    genes = flattened_entry.at[0, 'genes']\n",
-    "    for idx, gene in enumerate(genes):\n",
-    "        flat_genes = pd.json_normalize(gene, sep='_')\n",
-    "        flat_genes = flat_genes.add_prefix(f'gene_{idx}_')\n",
-    "        flattened_entry = flattened_entry.join(flat_genes, rsuffix=f'_{idx}_g')\n",
-    "    # Process germline_classification_trait_set\n",
-    "    germline_classification_trait_set = flattened_entry.at[0, 'germline_classification_trait_set']\n",
-    "    for idx, germline_set in enumerate(germline_classification_trait_set):\n",
-    "        flat_germline_set = pd.json_normalize(germline_set, sep='_')\n",
-    "        flat_germline_set = flat_germline_set.add_prefix(f'germline_set_{idx}_')\n",
-    "\n",
-    "        trait_xrefs = flat_germline_set.at[0, f'germline_set_{idx}_trait_xrefs']\n",
-    "        for jdx, trait_xref in enumerate(trait_xrefs):\n",
-    "            flat_trait_xrefs = pd.json_normalize(trait_xref, sep='_')\n",
-    "            flat_trait_xrefs = flat_trait_xrefs.add_prefix(f'trait_xref_{jdx}_')\n",
-    "            flat_germline_set = flat_germline_set.join(flat_trait_xrefs, rsuffix=f'_{idx}_{jdx}_tx')\n",
-    "\n",
-    "        flat_germline_set = flat_germline_set.drop(columns=[f'germline_set_{idx}_trait_xrefs'])\n",
-    "        flattened_entry = flattened_entry.join(flat_germline_set, rsuffix=f'_{idx}_gls')\n",
-    "\n",
-    "    # Dropping original nested lists columns\n",
-    "    flattened_entry = flattened_entry.drop(columns=['variation_set', 'genes', 'germline_classification_trait_set'])\n",
-    "\n",
-    "    # Append the flattened entry to the list\n",
-    "    flattened_data.append(flattened_entry)\n",
-    "\n",
-    "# Concatenate all flattened entries into a single DataFrame\n",
-    "df = pd.concat(flattened_data, ignore_index=True)\n",
-    "\n",
-    "display(df)"
-   ],
-   "id": "3b9b8bdad8bdb55d",
-   "outputs": [],
-   "execution_count": null
-  },
-  {
-   "metadata": {},
-   "cell_type": "markdown",
-   "source": [
-    "Explanation of whats happening in the code below:\n",
-    "\n",
-    "Function to get all the ids from a gene name:\n",
-    "```python\n",
-    "get_variant_ids_from_clinvar_name_api(name: str, count: int)\n",
-    "```\n",
-    "\n",
-    "function gets the ids from the clinvar api, the name is the gene name and the count is the maximum number of ids to get (api's limit is 500)\n",
-    "\n",
-    "function returns a dictionary with the count and the list of ids:\n",
-    "\n",
-    "```json\n",
-    "{\n",
-    "    'count': int,\n",
-    "    'idlist': List[str]\n",
-    "}\n",
-    "```\n",
-    "\n",
-    "if the count is greater than the api's limit, the function will split the list of ids into smaller lists of 500 and then request the data from the api in chunks of 500 ids:\n",
-    "\n",
-    "```python\n",
-    "id_lists = [id_list[i:i + max] for i in range(0, size, max)]\n",
-    "```\n",
-    "\n",
-    "then the function will request the data from the api and concatenate the dataframes into a single dataframe:\n",
-    "\n",
-    "```python\n",
-    "frames = request_clinvar_api_data(join)\n",
-    "variations = pd.concat([variations, frames], ignore_index=True)\n",
-    "```\n",
-    "\n",
-    "The variant extraction function contains a lot of nested lists and dictionaries, so the function will flatten the data and then concatenate the dataframes into a single dataframe\n",
-    "\n",
-    "**NOTE**\n",
-    "\n",
-    "> joining function may have been implemented wrong due to the waiting time of the api.\n"
-   ],
-   "id": "655a935b2874c218"
-  },
   {
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2024-08-07T12:57:28.089588Z",
-     "start_time": "2024-08-07T12:55:09.972813Z"
+     "end_time": "2024-08-19T08:25:08.217689Z",
+     "start_time": "2024-08-19T08:25:06.865107Z"
     }
    },
    "cell_type": "code",
    "source": [
-    "import pandas as pd\n",
-    "\n",
-    "variations = pd.DataFrame()\n",
+    "variation_ids = '148002'\n",
     "\n",
-    "max = 500\n",
-    "name = \"EYS\"\n",
-    "count = 2147483647\n",
-    "\n",
-    "id_array = get_variant_ids_from_clinvar_name_api(name, count)\n",
-    "size = int(id_array['count'])\n",
-    "id_list = id_array['idlist']\n",
-    "\n",
-    "id_lists = [id_list[i:i + max] for i in range(0, size, max)]\n",
-    "\n",
-    "track = 0\n",
-    "for lists in id_lists:\n",
-    "    join = \",\".join(lists)\n",
-    "    frame = request_clinvar_api_data(join)\n",
-    "    \n",
-    "    variations = pd.concat([variations, frame], ignore_index=True)\n",
-    "    \n",
-    "    print(f\"{track + 1}/{len(id_lists)}\")\n",
-    "    track += 1\n",
+    "frames = request_clinvar_api_data(variation_ids)\n",
     "\n",
-    "display(variations)\n"
+    "display(frames)"
    ],
-   "id": "129175e3a2e568be",
+   "id": "b21c3487476b684f",
    "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "1/10\n",
-      "2/10\n",
-      "3/10\n",
-      "4/10\n",
-      "5/10\n",
-      "6/10\n",
-      "7/10\n",
-      "8/10\n",
-      "9/10\n",
-      "10/10\n"
-     ]
-    },
     {
      "data": {
       "text/plain": [
-       "          uid                   obj_type  ... gene_1029_strand gene_1029_source\n",
-       "0     3251429  single nucleotide variant  ...              NaN              NaN\n",
-       "1     3246148                   Deletion  ...              NaN              NaN\n",
-       "2     3246147                   Deletion  ...              NaN              NaN\n",
-       "3     3246146                   Deletion  ...              NaN              NaN\n",
-       "4     3246145                   Deletion  ...              NaN              NaN\n",
-       "...       ...                        ...  ...              ...              ...\n",
-       "4778      538  single nucleotide variant  ...              NaN              NaN\n",
-       "4779      537  single nucleotide variant  ...              NaN              NaN\n",
-       "4780      536                   Deletion  ...              NaN              NaN\n",
-       "4781      535                   Deletion  ...              NaN              NaN\n",
-       "4782      534                   Deletion  ...              NaN              NaN\n",
+       "      uid  ... germline_set_0_trait_name\n",
+       "0  148002  ...                 See cases\n",
        "\n",
-       "[4783 rows x 4428 columns]"
+       "[1 rows x 37 columns]"
       ],
       "text/html": [
        "<div>\n",
@@ -412,746 +211,30 @@
        "      <th>variation_set_0_aliases</th>\n",
        "      <th>variation_set_0_variant_type</th>\n",
        "      <th>variation_set_0_canonical_spdi</th>\n",
-       "      <th>variation_set_0_loc_0_status</th>\n",
-       "      <th>variation_set_0_loc_0_assembly_name</th>\n",
-       "      <th>variation_set_0_loc_0_chr</th>\n",
-       "      <th>variation_set_0_loc_0_band</th>\n",
-       "      <th>...</th>\n",
-       "      <th>gene_1020_symbol</th>\n",
-       "      <th>gene_1020_geneid</th>\n",
-       "      <th>gene_1020_strand</th>\n",
-       "      <th>gene_1020_source</th>\n",
-       "      <th>gene_1021_symbol</th>\n",
-       "      <th>gene_1021_geneid</th>\n",
-       "      <th>gene_1021_strand</th>\n",
-       "      <th>gene_1021_source</th>\n",
-       "      <th>gene_1022_symbol</th>\n",
-       "      <th>gene_1022_geneid</th>\n",
-       "      <th>gene_1022_strand</th>\n",
-       "      <th>gene_1022_source</th>\n",
-       "      <th>gene_1023_symbol</th>\n",
-       "      <th>gene_1023_geneid</th>\n",
-       "      <th>gene_1023_strand</th>\n",
-       "      <th>gene_1023_source</th>\n",
-       "      <th>gene_1024_symbol</th>\n",
-       "      <th>gene_1024_geneid</th>\n",
-       "      <th>gene_1024_strand</th>\n",
-       "      <th>gene_1024_source</th>\n",
-       "      <th>gene_1025_symbol</th>\n",
-       "      <th>gene_1025_geneid</th>\n",
-       "      <th>gene_1025_strand</th>\n",
-       "      <th>gene_1025_source</th>\n",
-       "      <th>gene_1026_symbol</th>\n",
-       "      <th>gene_1026_geneid</th>\n",
-       "      <th>gene_1026_strand</th>\n",
-       "      <th>gene_1026_source</th>\n",
-       "      <th>gene_1027_symbol</th>\n",
-       "      <th>gene_1027_geneid</th>\n",
-       "      <th>gene_1027_strand</th>\n",
-       "      <th>gene_1027_source</th>\n",
-       "      <th>gene_1028_symbol</th>\n",
-       "      <th>gene_1028_geneid</th>\n",
-       "      <th>gene_1028_strand</th>\n",
-       "      <th>gene_1028_source</th>\n",
-       "      <th>gene_1029_symbol</th>\n",
-       "      <th>gene_1029_geneid</th>\n",
-       "      <th>gene_1029_strand</th>\n",
-       "      <th>gene_1029_source</th>\n",
+       "      <th>germline_set_0_trait_name</th>\n",
        "    </tr>\n",
        "  </thead>\n",
        "  <tbody>\n",
        "    <tr>\n",
        "      <th>0</th>\n",
-       "      <td>3251429</td>\n",
-       "      <td>single nucleotide variant</td>\n",
-       "      <td>VCV003251429</td>\n",
-       "      <td>VCV003251429.</td>\n",
-       "      <td>NM_001142800.2(EYS):c.5886T&gt;C (p.Thr1962=)</td>\n",
+       "      <td>148002</td>\n",
+       "      <td>copy number gain</td>\n",
+       "      <td>VCV000148002</td>\n",
+       "      <td>VCV000148002.</td>\n",
+       "      <td>GRCh38/hg38 6p12.1-q12(chr6:53931543-68149750)x3</td>\n",
        "      <td></td>\n",
-       "      <td>EYS</td>\n",
+       "      <td>BAG2</td>\n",
        "      <td>06</td>\n",
-       "      <td>00000000000064436215</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[synonymous variant]</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV005076913]</td>\n",
-       "      <td>[RCV004587835]</td>\n",
-       "      <td>Likely benign</td>\n",
-       "      <td>2024/04/08 00:00</td>\n",
-       "      <td>criteria provided, single submitter</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
+       "      <td>00000000000053931543</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td>[]</td>\n",
        "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
        "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>3410228</td>\n",
-       "      <td>NM_001142800.2(EYS):c.5886T&gt;C (p.Thr1962=)</td>\n",
-       "      <td>c.5886T&gt;C</td>\n",
-       "      <td>[]</td>\n",
-       "      <td>single nucleotide variant</td>\n",
-       "      <td>NC_000006.12:64436214:A:G</td>\n",
-       "      <td>current</td>\n",
-       "      <td>GRCh38</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>3246148</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td>VCV003246148</td>\n",
-       "      <td>VCV003246148.</td>\n",
-       "      <td>NC_000006.11:g.(?_66204859)_(66217229_?)del</td>\n",
-       "      <td></td>\n",
-       "      <td>EYS</td>\n",
-       "      <td>06</td>\n",
-       "      <td>99999999999999999999</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV005067530]</td>\n",
-       "      <td>[RCV004578792]</td>\n",
+       "      <td>[SCV000177291]</td>\n",
+       "      <td>[RCV000137097]</td>\n",
        "      <td>Pathogenic</td>\n",
-       "      <td>2023/01/02 00:00</td>\n",
-       "      <td>criteria provided, single submitter</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>3403857</td>\n",
-       "      <td>NC_000006.11:g.(?_66204859)_(66217229_?)del</td>\n",
-       "      <td>NC_000006.11:g.(?_66204859)_(66217229_?)del</td>\n",
-       "      <td>[]</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td></td>\n",
-       "      <td>previous</td>\n",
-       "      <td>GRCh37</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>3246147</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td>VCV003246147</td>\n",
-       "      <td>VCV003246147.</td>\n",
-       "      <td>NC_000006.11:g.(?_64511633)_(64516181_?)del</td>\n",
-       "      <td></td>\n",
-       "      <td>EYS</td>\n",
-       "      <td>06</td>\n",
-       "      <td>99999999999999999999</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV005067529]</td>\n",
-       "      <td>[RCV004578791]</td>\n",
-       "      <td>Likely pathogenic</td>\n",
-       "      <td>2023/03/08 00:00</td>\n",
-       "      <td>criteria provided, single submitter</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>3403856</td>\n",
-       "      <td>NC_000006.11:g.(?_64511633)_(64516181_?)del</td>\n",
-       "      <td>NC_000006.11:g.(?_64511633)_(64516181_?)del</td>\n",
-       "      <td>[]</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td></td>\n",
-       "      <td>previous</td>\n",
-       "      <td>GRCh37</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>3246146</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td>VCV003246146</td>\n",
-       "      <td>VCV003246146.</td>\n",
-       "      <td>NC_000006.11:g.(?_65523280)_(65527746_?)del</td>\n",
-       "      <td></td>\n",
-       "      <td>EYS</td>\n",
-       "      <td>06</td>\n",
-       "      <td>99999999999999999999</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV005067528]</td>\n",
-       "      <td>[RCV004578790]</td>\n",
-       "      <td>Likely pathogenic</td>\n",
-       "      <td>2023/04/30 00:00</td>\n",
-       "      <td>criteria provided, single submitter</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>3403855</td>\n",
-       "      <td>NC_000006.11:g.(?_65523280)_(65527746_?)del</td>\n",
-       "      <td>NC_000006.11:g.(?_65523280)_(65527746_?)del</td>\n",
-       "      <td>[]</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td></td>\n",
-       "      <td>previous</td>\n",
-       "      <td>GRCh37</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>3246145</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td>VCV003246145</td>\n",
-       "      <td>VCV003246145.</td>\n",
-       "      <td>NC_000006.11:g.(?_65587645)_(65596716_?)del</td>\n",
-       "      <td></td>\n",
-       "      <td>EYS</td>\n",
-       "      <td>06</td>\n",
-       "      <td>99999999999999999999</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV005067527]</td>\n",
-       "      <td>[RCV004578789]</td>\n",
-       "      <td>Likely pathogenic</td>\n",
-       "      <td>2023/06/27 00:00</td>\n",
-       "      <td>criteria provided, single submitter</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>3403854</td>\n",
-       "      <td>NC_000006.11:g.(?_65587645)_(65596716_?)del</td>\n",
-       "      <td>NC_000006.11:g.(?_65587645)_(65596716_?)del</td>\n",
-       "      <td>[]</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td></td>\n",
-       "      <td>previous</td>\n",
-       "      <td>GRCh37</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4778</th>\n",
-       "      <td>538</td>\n",
-       "      <td>single nucleotide variant</td>\n",
-       "      <td>VCV000000538</td>\n",
-       "      <td>VCV000000538.</td>\n",
-       "      <td>NM_001142800.2(EYS):c.9405T&gt;A (p.Tyr3135Ter)</td>\n",
-       "      <td></td>\n",
-       "      <td>EYS</td>\n",
-       "      <td>06</td>\n",
-       "      <td>00000000000063720626</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[3 prime UTR variant, nonsense]</td>\n",
-       "      <td>Y3156*, Y3135*</td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV000020717, SCV000894389, SCV000709692, SCV...</td>\n",
-       "      <td>[RCV000000568, RCV000593252, RCV003914789, RCV...</td>\n",
-       "      <td>Pathogenic/Likely pathogenic</td>\n",
-       "      <td>2024/03/09 00:00</td>\n",
-       "      <td>criteria provided, multiple submitters, no con...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>15577</td>\n",
-       "      <td>NM_001142800.2(EYS):c.9405T&gt;A (p.Tyr3135Ter)</td>\n",
-       "      <td>c.9405T&gt;A</td>\n",
-       "      <td>[]</td>\n",
-       "      <td>single nucleotide variant</td>\n",
-       "      <td>NC_000006.12:63720625:A:T</td>\n",
-       "      <td>current</td>\n",
-       "      <td>GRCh38</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4779</th>\n",
-       "      <td>537</td>\n",
-       "      <td>single nucleotide variant</td>\n",
-       "      <td>VCV000000537</td>\n",
-       "      <td>VCV000000537.</td>\n",
-       "      <td>NM_001142800.2(EYS):c.5857G&gt;T (p.Glu1953Ter)</td>\n",
-       "      <td></td>\n",
-       "      <td>EYS</td>\n",
-       "      <td>06</td>\n",
-       "      <td>00000000000064436244</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[nonsense]</td>\n",
-       "      <td>E1953*</td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV000020716, SCV002519636, SCV004195857, SCV...</td>\n",
-       "      <td>[RCV000000567, RCV001387157]</td>\n",
-       "      <td>Pathogenic</td>\n",
-       "      <td>2024/02/15 00:00</td>\n",
-       "      <td>criteria provided, multiple submitters, no con...</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>15576</td>\n",
-       "      <td>NM_001142800.2(EYS):c.5857G&gt;T (p.Glu1953Ter)</td>\n",
-       "      <td>c.5857G&gt;T</td>\n",
-       "      <td>[]</td>\n",
-       "      <td>single nucleotide variant</td>\n",
-       "      <td>NC_000006.12:64436243:C:A</td>\n",
-       "      <td>current</td>\n",
-       "      <td>GRCh38</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4780</th>\n",
-       "      <td>536</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td>VCV000000536</td>\n",
-       "      <td>VCV000000536.</td>\n",
-       "      <td>NM_001142800.1(EYS):c.1767-24596_2023+238135del</td>\n",
-       "      <td></td>\n",
-       "      <td>LOC441155</td>\n",
-       "      <td>06</td>\n",
-       "      <td>00000000000065057728</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV000020715]</td>\n",
-       "      <td>[RCV000000566]</td>\n",
-       "      <td>Pathogenic</td>\n",
-       "      <td>2008/11/01 00:00</td>\n",
+       "      <td>2010/12/22 00:00</td>\n",
        "      <td>no assertion criteria provided</td>\n",
        "      <td></td>\n",
        "      <td></td>\n",
@@ -1164,229 +247,16 @@
        "      <td></td>\n",
        "      <td></td>\n",
        "      <td>[]</td>\n",
-       "      <td>15575</td>\n",
-       "      <td>NM_001142800.1(EYS):c.1767-24596_2023+238135del</td>\n",
-       "      <td>NM_001142800.1(EYS):c.1767-24596_2023+238135del</td>\n",
-       "      <td>[EX12DEL]</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td></td>\n",
-       "      <td>current</td>\n",
-       "      <td>GRCh38</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4781</th>\n",
-       "      <td>535</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td>VCV000000535</td>\n",
-       "      <td>VCV000000535.</td>\n",
-       "      <td>NM_001142800.1(EYS):c.2260-51191_2992+45990del</td>\n",
-       "      <td></td>\n",
-       "      <td>EYS</td>\n",
-       "      <td>06</td>\n",
-       "      <td>00000000000064840707</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV000020714]</td>\n",
-       "      <td>[RCV000000565]</td>\n",
-       "      <td>Pathogenic</td>\n",
-       "      <td>2008/11/01 00:00</td>\n",
-       "      <td>no assertion criteria provided</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
+       "      <td>157753</td>\n",
+       "      <td>GRCh38/hg38 6p12.1-q12(chr6:53931543-68149750)x3</td>\n",
+       "      <td>GRCh38/hg38 6p12.1-q12(chr6:53931543-68149750)x3</td>\n",
        "      <td>[]</td>\n",
+       "      <td>copy number gain</td>\n",
        "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>15574</td>\n",
-       "      <td>NM_001142800.1(EYS):c.2260-51191_2992+45990del</td>\n",
-       "      <td>NM_001142800.1(EYS):c.2260-51191_2992+45990del</td>\n",
-       "      <td>[EX15-19DEL]</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td></td>\n",
-       "      <td>current</td>\n",
-       "      <td>GRCh38</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4782</th>\n",
-       "      <td>534</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td>VCV000000534</td>\n",
-       "      <td>VCV000000534.</td>\n",
-       "      <td>NM_001142800.2(EYS):c.2710_2726del (p.Asp904fs)</td>\n",
-       "      <td></td>\n",
-       "      <td>EYS</td>\n",
-       "      <td>06</td>\n",
-       "      <td>00000000000064902416</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[frameshift variant]</td>\n",
-       "      <td>D904fs</td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV000020713]</td>\n",
-       "      <td>[RCV000000564]</td>\n",
-       "      <td>Pathogenic</td>\n",
-       "      <td>2008/11/01 00:00</td>\n",
-       "      <td>no assertion criteria provided</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>15573</td>\n",
-       "      <td>NM_001142800.2(EYS):c.2710_2726del (p.Asp904fs)</td>\n",
-       "      <td>c.2710_2726del</td>\n",
-       "      <td>[]</td>\n",
-       "      <td>Deletion</td>\n",
-       "      <td>NC_000006.12:64902415:ACCATATCTTCACAGTCACCATA:...</td>\n",
-       "      <td>current</td>\n",
-       "      <td>GRCh38</td>\n",
-       "      <td>6</td>\n",
-       "      <td>6q12</td>\n",
-       "      <td>...</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
-       "      <td>NaN</td>\n",
+       "      <td>See cases</td>\n",
        "    </tr>\n",
        "  </tbody>\n",
        "</table>\n",
-       "<p>4783 rows × 4428 columns</p>\n",
        "</div>"
       ]
      },
@@ -1394,7 +264,116 @@
      "output_type": "display_data"
     }
    ],
-   "execution_count": 37
+   "execution_count": 2
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": [
+    "clinvar_data = pd.read_csv(\"C:\\\\Users\\\\Kajus\\\\Desktop\\\\clinvar_results.txt\", sep='\\t')\n",
+    "\n",
+    "display(clinvar_data)"
+   ],
+   "id": "8cb4bbe3f35562d5",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "markdown",
+   "source": [
+    "Explanation of whats happening in the code below:\n",
+    "\n",
+    "Function to get all the ids from a gene name:\n",
+    "```python\n",
+    "get_variant_ids_from_clinvar_name_api(name: str, count: int)\n",
+    "```\n",
+    "\n",
+    "function gets the ids from the clinvar api, the name is the gene name and the count is the maximum number of ids to get (api's limit is 500)\n",
+    "\n",
+    "function returns a dictionary with the count and the list of ids:\n",
+    "\n",
+    "```json\n",
+    "{\n",
+    "    'count': int,\n",
+    "    'idlist': List[str]\n",
+    "}\n",
+    "```\n",
+    "\n",
+    "if the count is greater than the api's limit, the function will split the list of ids into smaller lists of 500 and then request the data from the api in chunks of 500 ids:\n",
+    "\n",
+    "```python\n",
+    "id_lists = [id_list[i:i + max] for i in range(0, size, max)]\n",
+    "```\n",
+    "\n",
+    "then the function will request the data from the api and concatenate the dataframes into a single dataframe:\n",
+    "\n",
+    "```python\n",
+    "frames = request_clinvar_api_data(join)\n",
+    "variations = pd.concat([variations, frames], ignore_index=True)\n",
+    "```\n",
+    "\n",
+    "The variant extraction function contains a lot of nested lists and dictionaries, so the function will flatten the data and then concatenate the dataframes into a single dataframe\n",
+    "\n",
+    "**NOTE**\n",
+    "\n",
+    "> joining function may have been implemented wrong due to the waiting time of the api.\n"
+   ],
+   "id": "655a935b2874c218"
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": [
+    "import pandas as pd\n",
+    "\n",
+    "variations = pd.DataFrame()\n",
+    "\n",
+    "max = 500\n",
+    "name = \"EYS\"\n",
+    "count = 2147483647\n",
+    "\n",
+    "id_array = get_variant_ids_from_clinvar_name_api(name, count)\n",
+    "size = int(id_array['count'])\n",
+    "id_list = id_array['idlist']\n",
+    "\n",
+    "id_lists = [id_list[i:i + max] for i in range(0, size, max)]\n",
+    "\n",
+    "track = 0\n",
+    "for lists in id_lists:\n",
+    "    join = \",\".join(lists)\n",
+    "    frame = request_clinvar_api_data(join)\n",
+    "    \n",
+    "    variations = pd.concat([variations, frame], ignore_index=True)\n",
+    "    \n",
+    "    print(f\"{track + 1}/{len(id_lists)}\")\n",
+    "    track += 1\n",
+    "\n",
+    "display(variations)\n"
+   ],
+   "id": "129175e3a2e568be",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": [
+    "clinvar_data = pd.read_csv('C:\\\\Users\\\\Kajus\\\\Desktop\\\\clinvar_result.txt', sep='\\t')\n",
+    "\n",
+    "display(clinvar_data)"
+   ],
+   "id": "c85507a3e2c584da",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": "",
+   "id": "8e0e2f2853152d96",
+   "outputs": [],
+   "execution_count": null
   }
  ],
  "metadata": {

From 5243f8e43cfabe4b532b74c29b455cc3ccd616c5 Mon Sep 17 00:00:00 2001
From: Kajus CC <42713684+KajusC@users.noreply.github.com>
Date: Thu, 22 Aug 2024 17:16:16 +0300
Subject: [PATCH 05/10] Created a function which collects EYS data from gnomAD
 api.

---
 api/data/__init__.py    |   1 +
 api/data/refactoring.py | 127 ++++++++++++++++
 tests/pipeline.ipynb    | 324 ++++++++++++++++++++++++----------------
 3 files changed, 322 insertions(+), 130 deletions(-)

diff --git a/api/data/__init__.py b/api/data/__init__.py
index 5ccab15..9598171 100644
--- a/api/data/__init__.py
+++ b/api/data/__init__.py
@@ -59,4 +59,5 @@
     request_clinvar_api_data,
     get_variant_ids_from_clinvar_name_api,
     extract_nested_json,
+    request_gnomad_api_data,
 )
diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index 09eaca1..de2ff91 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -272,3 +272,130 @@ def request_clinvar_api_data(gene_id):
     df = pd.concat(flattened_data, ignore_index=True)
 
     return df
+
+
+def request_gnomad_api_data(to_file=True):
+    """
+    Requests gnomAD API for data about EYS gene containing:
+    - variant_id
+    - cDNA change
+    - protein change
+    - allele frequency
+    - homozygote count
+    - popmax
+    - popmax population
+
+    :param bool to_file: if True, saves data to variants.csv
+    :returns: DataFrame from gnomAD API
+    :rtype: DataFrame
+    """
+
+    url = 'https://gnomad.broadinstitute.org/api'
+    query = """
+    query{
+      gene(gene_id: "ENSG00000188107", reference_genome: GRCh38) {
+        variants(dataset: gnomad_r4)
+        {
+          variant_id
+          chrom
+          pos
+          ref
+          hgvsc
+          hgvsp
+          alt
+          exome {
+          ac
+          an
+          ac_hom
+            populations
+            {
+              id
+              ac
+              an
+            }
+          }
+          genome
+          {
+            ac
+            an
+            ac_hom
+            populations
+            {
+              id
+              ac
+              an
+            }
+          }
+        }
+      }
+    }
+    """
+    response = requests.post(url, json={'query': query})
+    if response.status_code == 200:
+        data = response.json()['data']['gene']['variants']
+
+        df = pd.json_normalize(data)
+
+        df['total_ac'] = df['exome.ac'].fillna(0) + df['genome.ac'].fillna(0)
+        df['total_an'] = df['exome.an'].fillna(0) + df['genome.an'].fillna(0)
+
+        df['cDNA change'] = df['hgvsc'].fillna(0)
+        df['Protein change'] = df['hgvsp'].fillna(0)
+
+        df['Allele Frequency'] = df['total_ac'] / df['total_an']
+        df['Homozygote Count'] = df['exome.ac_hom'].fillna(0) + df['genome.ac_hom'].fillna(0)
+        exome_populations = df['exome.populations']
+        genome_populations = df['genome.populations']
+        ids = ['afr', 'eas', 'asj', 'sas', 'nfe', 'fin', 'mid', 'amr', 'ami', 'remaining']
+
+        def process_population_data(pop_data, name, pop_ids, index):
+            for pop_id in pop_ids:
+                df.loc[index, f'{name}_ac_{pop_id}'] = 0
+                df.loc[index, f'{name}_an_{pop_id}'] = 0
+            if type(pop_data) == list:
+                for pop in pop_data:
+                    id = pop['id']
+                    df.loc[index, f'{name}_ac_{id}'] = pop['ac']
+                    df.loc[index, f'{name}_an_{id}'] = pop['an']
+
+        for i in range(len(exome_populations)):
+            exome_pop = exome_populations[i]
+            process_population_data(exome_pop, 'exome', ids, i)
+            genome_pop = genome_populations[i]
+            process_population_data(genome_pop, 'genome', ids, i)
+
+        for id in ids:
+            df[f'Allele_Frequency_{id}'] = (df[f'exome_ac_{id}'].fillna(0) + df[f'genome_ac_{id}'].fillna(0)) / (
+                        df[f'exome_an_{id}'].fillna(0) + df[f'genome_an_{id}'].fillna(0))
+        population_mapping = {
+            'afr': 'African/African American',
+            'eas': 'East Asian',
+            'asj': 'Ashkenazi Jew',
+            'sas': 'South Asian',
+            'nfe': 'European (non-Finnish)',
+            'fin': 'European (Finnish)',
+            'mid': 'Middle Eastern',
+            'amr': 'Admixed American',
+            'ami': "Amish",
+            'remaining': 'Remaining',
+            '': ''
+        }
+        for i in range(len(df)):
+            max = 0
+            maxid = ''
+            for id in ids:
+                if df.loc[i, f'Allele_Frequency_{id}'] > max:
+                    max = df.loc[i, f'Allele_Frequency_{id}']
+                    maxid = id
+            df.loc[i, 'Popmax'] = max
+            df.loc[i, 'Popmax population'] = population_mapping[maxid]
+        not_to_drop = ['Popmax', 'Popmax population', 'Homozygote Count', 'Allele Frequency', 'variant_id',
+                       'cDNA change', 'Protein change']
+        df = df.drop([col for col in df.columns if col not in not_to_drop], axis=1)
+        if to_file:
+            df.to_csv('variants.csv', index=True)
+
+    else:
+        print('Error:', response.status_code)
+
+    return df
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index 91f5df4..6c6ef65 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -9,8 +9,8 @@
      "outputs_hidden": true
     },
     "ExecuteTime": {
-     "end_time": "2024-08-19T08:25:04.230992Z",
-     "start_time": "2024-08-19T08:25:03.038301Z"
+     "end_time": "2024-08-21T19:51:25.871973Z",
+     "start_time": "2024-08-21T19:51:25.105850Z"
     }
    },
    "source": [
@@ -23,6 +23,7 @@
     "                      set_lovd_dtypes,\n",
     "                      request_clinvar_api_data,\n",
     "                      get_variant_ids_from_clinvar_name_api,\n",
+    "                      request_gnomad_api_data,\n",
     "                      )\n",
     "from api.data import save_lovd_as_vcf\n",
     "\n",
@@ -132,12 +133,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-08-19T08:25:08.217689Z",
-     "start_time": "2024-08-19T08:25:06.865107Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "variation_ids = '148002'\n",
@@ -147,124 +143,8 @@
     "display(frames)"
    ],
    "id": "b21c3487476b684f",
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "      uid  ... germline_set_0_trait_name\n",
-       "0  148002  ...                 See cases\n",
-       "\n",
-       "[1 rows x 37 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>uid</th>\n",
-       "      <th>obj_type</th>\n",
-       "      <th>accession</th>\n",
-       "      <th>accession_version</th>\n",
-       "      <th>title</th>\n",
-       "      <th>record_status</th>\n",
-       "      <th>gene_sort</th>\n",
-       "      <th>chr_sort</th>\n",
-       "      <th>location_sort</th>\n",
-       "      <th>variation_set_name</th>\n",
-       "      <th>variation_set_id</th>\n",
-       "      <th>molecular_consequence_list</th>\n",
-       "      <th>protein_change</th>\n",
-       "      <th>fda_recognized_database</th>\n",
-       "      <th>supporting_submissions_scv</th>\n",
-       "      <th>supporting_submissions_rcv</th>\n",
-       "      <th>germline_classification_description</th>\n",
-       "      <th>germline_classification_last_evaluated</th>\n",
-       "      <th>germline_classification_review_status</th>\n",
-       "      <th>germline_classification_fda_recognized_database</th>\n",
-       "      <th>clinical_impact_classification_description</th>\n",
-       "      <th>clinical_impact_classification_last_evaluated</th>\n",
-       "      <th>clinical_impact_classification_review_status</th>\n",
-       "      <th>clinical_impact_classification_fda_recognized_database</th>\n",
-       "      <th>clinical_impact_classification_trait_set</th>\n",
-       "      <th>oncogenicity_classification_description</th>\n",
-       "      <th>oncogenicity_classification_last_evaluated</th>\n",
-       "      <th>oncogenicity_classification_review_status</th>\n",
-       "      <th>oncogenicity_classification_fda_recognized_database</th>\n",
-       "      <th>oncogenicity_classification_trait_set</th>\n",
-       "      <th>variation_set_0_measure_id</th>\n",
-       "      <th>variation_set_0_variation_name</th>\n",
-       "      <th>variation_set_0_cdna_change</th>\n",
-       "      <th>variation_set_0_aliases</th>\n",
-       "      <th>variation_set_0_variant_type</th>\n",
-       "      <th>variation_set_0_canonical_spdi</th>\n",
-       "      <th>germline_set_0_trait_name</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>148002</td>\n",
-       "      <td>copy number gain</td>\n",
-       "      <td>VCV000148002</td>\n",
-       "      <td>VCV000148002.</td>\n",
-       "      <td>GRCh38/hg38 6p12.1-q12(chr6:53931543-68149750)x3</td>\n",
-       "      <td></td>\n",
-       "      <td>BAG2</td>\n",
-       "      <td>06</td>\n",
-       "      <td>00000000000053931543</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[SCV000177291]</td>\n",
-       "      <td>[RCV000137097]</td>\n",
-       "      <td>Pathogenic</td>\n",
-       "      <td>2010/12/22 00:00</td>\n",
-       "      <td>no assertion criteria provided</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td></td>\n",
-       "      <td>1/01/01 00:00</td>\n",
-       "      <td></td>\n",
-       "      <td></td>\n",
-       "      <td>[]</td>\n",
-       "      <td>157753</td>\n",
-       "      <td>GRCh38/hg38 6p12.1-q12(chr6:53931543-68149750)x3</td>\n",
-       "      <td>GRCh38/hg38 6p12.1-q12(chr6:53931543-68149750)x3</td>\n",
-       "      <td>[]</td>\n",
-       "      <td>copy number gain</td>\n",
-       "      <td></td>\n",
-       "      <td>See cases</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    }
-   ],
-   "execution_count": 2
+   "outputs": [],
+   "execution_count": null
   },
   {
    "metadata": {},
@@ -319,7 +199,7 @@
     "\n",
     "> joining function may have been implemented wrong due to the waiting time of the api.\n"
    ],
-   "id": "655a935b2874c218"
+   "id": "976f9632a8ef29e3"
   },
   {
    "metadata": {},
@@ -367,13 +247,197 @@
    "outputs": [],
    "execution_count": null
   },
+  {
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-08-21T19:54:33.516081Z",
+     "start_time": "2024-08-21T19:52:03.354634Z"
+    }
+   },
+   "cell_type": "code",
+   "source": [
+    "gnomad_from_api = request_gnomad_api_data(False)\n",
+    "\n",
+    "display(gnomad_from_api)"
+   ],
+   "id": "64482c033c794fb4",
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "           variant_id cDNA change  ...    Popmax         Popmax population\n",
+       "0      6-63720525-A-G    c.*71T>C  ...  0.000016  African/African American\n",
+       "1      6-63720525-A-T    c.*71T>A  ...  0.000192                East Asian\n",
+       "2      6-63720525-A-C    c.*71T>G  ...  0.000000                          \n",
+       "3      6-63720526-T-A    c.*70A>T  ...  0.000020               South Asian\n",
+       "4      6-63720527-G-T    c.*69C>A  ...  0.000000                          \n",
+       "...               ...         ...  ...       ...                       ...\n",
+       "14295  6-65495479-G-T    c.-69C>A  ...  0.000000                          \n",
+       "14296  6-65495479-G-A    c.-69C>T  ...  0.000031  African/African American\n",
+       "14297  6-65495482-A-G    c.-72T>C  ...  0.000070          Admixed American\n",
+       "14298  6-65495484-T-G    c.-74A>C  ...  0.000060               South Asian\n",
+       "14299  6-65495485-T-C    c.-75A>G  ...  0.000012               South Asian\n",
+       "\n",
+       "[14300 rows x 7 columns]"
+      ],
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>variant_id</th>\n",
+       "      <th>cDNA change</th>\n",
+       "      <th>Protein change</th>\n",
+       "      <th>Allele Frequency</th>\n",
+       "      <th>Homozygote Count</th>\n",
+       "      <th>Popmax</th>\n",
+       "      <th>Popmax population</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>6-63720525-A-G</td>\n",
+       "      <td>c.*71T&gt;C</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1.807419e-06</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000016</td>\n",
+       "      <td>African/African American</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>6-63720525-A-T</td>\n",
+       "      <td>c.*71T&gt;A</td>\n",
+       "      <td>0</td>\n",
+       "      <td>6.573844e-06</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000192</td>\n",
+       "      <td>East Asian</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>6-63720525-A-C</td>\n",
+       "      <td>c.*71T&gt;G</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.000000e+00</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td></td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>6-63720526-T-A</td>\n",
+       "      <td>c.*70A&gt;T</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1.045299e-06</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000020</td>\n",
+       "      <td>South Asian</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>6-63720527-G-T</td>\n",
+       "      <td>c.*69C&gt;A</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.000000e+00</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td></td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14295</th>\n",
+       "      <td>6-65495479-G-T</td>\n",
+       "      <td>c.-69C&gt;A</td>\n",
+       "      <td>0</td>\n",
+       "      <td>0.000000e+00</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000000</td>\n",
+       "      <td></td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14296</th>\n",
+       "      <td>6-65495479-G-A</td>\n",
+       "      <td>c.-69C&gt;T</td>\n",
+       "      <td>0</td>\n",
+       "      <td>1.446349e-06</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000031</td>\n",
+       "      <td>African/African American</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14297</th>\n",
+       "      <td>6-65495482-A-G</td>\n",
+       "      <td>c.-72T&gt;C</td>\n",
+       "      <td>0</td>\n",
+       "      <td>2.629510e-06</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000070</td>\n",
+       "      <td>Admixed American</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14298</th>\n",
+       "      <td>6-65495484-T-G</td>\n",
+       "      <td>c.-74A&gt;C</td>\n",
+       "      <td>0</td>\n",
+       "      <td>3.645085e-06</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000060</td>\n",
+       "      <td>South Asian</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14299</th>\n",
+       "      <td>6-65495485-T-C</td>\n",
+       "      <td>c.-75A&gt;G</td>\n",
+       "      <td>0</td>\n",
+       "      <td>7.310070e-07</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000012</td>\n",
+       "      <td>South Asian</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>14300 rows × 7 columns</p>\n",
+       "</div>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "execution_count": 2
+  },
   {
    "metadata": {},
    "cell_type": "code",
-   "source": "",
-   "id": "8e0e2f2853152d96",
    "outputs": [],
-   "execution_count": null
+   "execution_count": null,
+   "source": "",
+   "id": "6f0abfb50bd211a0"
   }
  ],
  "metadata": {

From 5c30ce16e8e859bb53c98e18eff4db0e314c250a Mon Sep 17 00:00:00 2001
From: Kajus CC <42713684+KajusC@users.noreply.github.com>
Date: Thu, 22 Aug 2024 20:24:16 +0300
Subject: [PATCH 06/10] Added ability to get any gene from API

---
 api/data/refactoring.py | 36 +++++++++++++++++++-----------------
 tests/pipeline.ipynb    | 10 +++++-----
 2 files changed, 24 insertions(+), 22 deletions(-)

diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index de2ff91..8057842 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -274,9 +274,9 @@ def request_clinvar_api_data(gene_id):
     return df
 
 
-def request_gnomad_api_data(to_file=True):
+def request_gnomad_api_data(gene_name, to_file=True):
     """
-    Requests gnomAD API for data about EYS gene containing:
+    Requests gnomAD API for data about a specific gene containing:
     - variant_id
     - cDNA change
     - protein change
@@ -285,17 +285,18 @@ def request_gnomad_api_data(to_file=True):
     - popmax
     - popmax population
 
+    :param str gene_name: name of gene
     :param bool to_file: if True, saves data to variants.csv
     :returns: DataFrame from gnomAD API
     :rtype: DataFrame
     """
 
     url = 'https://gnomad.broadinstitute.org/api'
-    query = """
-    query{
-      gene(gene_id: "ENSG00000188107", reference_genome: GRCh38) {
+    query = f"""
+    query{{
+      gene(gene_symbol: "{gene_name}", reference_genome: GRCh38) {{
         variants(dataset: gnomad_r4)
-        {
+        {{
           variant_id
           chrom
           pos
@@ -303,33 +304,34 @@ def request_gnomad_api_data(to_file=True):
           hgvsc
           hgvsp
           alt
-          exome {
+          exome {{
           ac
           an
           ac_hom
             populations
-            {
+            {{
               id
               ac
               an
-            }
-          }
+            }}
+          }}
           genome
-          {
+          {{
             ac
             an
             ac_hom
             populations
-            {
+            {{
               id
               ac
               an
-            }
-          }
-        }
-      }
-    }
+            }}
+          }}
+        }}
+      }}
+    }}
     """
+
     response = requests.post(url, json={'query': query})
     if response.status_code == 200:
         data = response.json()['data']['gene']['variants']
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index 6c6ef65..a838cd4 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -9,8 +9,8 @@
      "outputs_hidden": true
     },
     "ExecuteTime": {
-     "end_time": "2024-08-21T19:51:25.871973Z",
-     "start_time": "2024-08-21T19:51:25.105850Z"
+     "end_time": "2024-08-22T17:20:23.240355Z",
+     "start_time": "2024-08-22T17:20:21.651097Z"
     }
    },
    "source": [
@@ -250,13 +250,13 @@
   {
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2024-08-21T19:54:33.516081Z",
-     "start_time": "2024-08-21T19:52:03.354634Z"
+     "end_time": "2024-08-22T17:23:41.828469Z",
+     "start_time": "2024-08-22T17:21:09.627424Z"
     }
    },
    "cell_type": "code",
    "source": [
-    "gnomad_from_api = request_gnomad_api_data(False)\n",
+    "gnomad_from_api = request_gnomad_api_data(\"EYS\", False)\n",
     "\n",
     "display(gnomad_from_api)"
    ],

From 197864c56ecd4d396ddac539c55680bcce5c17c8 Mon Sep 17 00:00:00 2001
From: Kajus CC <42713684+KajusC@users.noreply.github.com>
Date: Thu, 22 Aug 2024 20:28:25 +0300
Subject: [PATCH 07/10] Removed from last branch

---
 api/__init__.py         |   2 -
 api/data/__init__.py    |   3 --
 api/data/refactoring.py | 115 ----------------------------------------
 tests/pipeline.ipynb    | 115 ----------------------------------------
 4 files changed, 235 deletions(-)

diff --git a/api/__init__.py b/api/__init__.py
index fb618dd..459952b 100644
--- a/api/__init__.py
+++ b/api/__init__.py
@@ -56,6 +56,4 @@
     parse_lovd,
     from_clinvar_name_to_cdna_position,
     save_lovd_as_vcf,
-    request_clinvar_api_data,
-    get_variant_ids_from_clinvar_name_api,
 )
diff --git a/api/data/__init__.py b/api/data/__init__.py
index 9598171..7cd3997 100644
--- a/api/data/__init__.py
+++ b/api/data/__init__.py
@@ -56,8 +56,5 @@
     parse_lovd,
     from_clinvar_name_to_cdna_position,
     save_lovd_as_vcf,
-    request_clinvar_api_data,
-    get_variant_ids_from_clinvar_name_api,
-    extract_nested_json,
     request_gnomad_api_data,
 )
diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index 8057842..1ac916b 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -159,121 +159,6 @@ def save_lovd_as_vcf(data, save_to="./lovd.vcf"):
             f.write("\n")
 
 
-def get_variant_ids_from_clinvar_name_api(name, count=100):
-    """
-    Extracts variant ids from ClinVar `name` variable. /n
-    key of dictionary is the size of the list of ids.
-
-    :param str name: name of variant
-    :param int count: number of ids to extract
-    :returns: ids of variants
-    :rtype: str
-    """
-
-    result = {}
-    base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=clinvar&term="
-    clinvar_url = f"{base_url}{name}&retmode=json&retmax={count}"
-
-    request = requests.get(clinvar_url)
-
-    if request.status_code != 200:
-        raise ValueError(f"Request failed with status code {request.status_code}")
-
-    data = request.json()
-
-    result['idlist'] = data['esearchresult']['idlist']
-    result['count'] = data['esearchresult']['count']
-
-    return result
-
-
-def extract_nested_json(flat_parsed, parsed_from, required_column, prefix, join_prefix):
-    """
-    Extracts nested JSON data from dictionary.
-
-    :param DataFrame parsed_from: normalised JSON data
-    :param str required_column: column to extract
-    :param str prefix: prefix for extracted columns
-    """
-
-    data_set = parsed_from.get(required_column, [])
-    for idx, data in enumerate(data_set):
-        flat_data = pd.json_normalize(data, sep='_')
-        flat_data = flat_data.add_prefix(f'{prefix}_{idx}_')
-        flat_parsed = flat_parsed.join(flat_data, rsuffix=f'_{idx}_{join_prefix}')
-
-
-def request_clinvar_api_data(gene_id):
-    """
-    Requests ClinVar API for data about variant with given id.
-    Converts it to pandas dataframe.
-
-    :param str gene_id: id of variant (may be multiple)
-    :returns: DataFrame from ClinVar API
-    :rtype: DataFrame
-    """
-    base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=clinvar&id="
-    clinvar_url = f"{base_url}{gene_id}&retmode=json"
-
-    request = requests.get(clinvar_url)
-
-    if request.status_code != 200:
-        raise ValueError(f"Request failed with status code {request.status_code}")
-
-    results = request.json()['result']
-
-    flattened_data = []
-
-    for uid in results['uids']:
-        entry = results[uid]
-
-        flattened_entry = pd.json_normalize(entry, sep='_')
-
-        variation_set = flattened_entry.at[0, 'variation_set']
-        for idx, var_set in enumerate(variation_set):
-            flat_var_set = pd.json_normalize(var_set, sep='_')
-            flat_var_set = flat_var_set.add_prefix(f'variation_set_{idx}_')
-
-            extract_nested_json(flat_var_set, var_set, 'variation_loc', f'variation_set_{idx}_loc', 'loc')
-            extract_nested_json(flat_var_set, var_set, 'variation_xrefs', f'variation_set_{idx}_xrefs', 'xrefs')
-            extract_nested_json(flat_var_set, var_set, 'allele_freq_set', f'variation_set_{idx}_allele_freq', 'allele_freq')
-
-            flat_var_set = flat_var_set.drop(
-                columns=[f'variation_set_{idx}_variation_loc',
-                         f'variation_set_{idx}_variation_xrefs',
-                         f'variation_set_{idx}_allele_freq_set'])
-            flattened_entry = flattened_entry.join(flat_var_set, rsuffix=f'_{idx}_vs')
-
-        # this extraction is different from the previous ones
-
-        genes = flattened_entry.at[0, 'genes']
-        for idx, gene in enumerate(genes):
-            flat_genes = pd.json_normalize(gene, sep='_')
-            flat_genes = flat_genes.add_prefix(f'gene_{idx}_')
-            flattened_entry = flattened_entry.join(flat_genes, rsuffix=f'_{idx}_g')
-
-        germline_classification_trait_set = flattened_entry.at[0,
-        'germline_classification_trait_set']
-        for idx, germline_set in enumerate(germline_classification_trait_set):
-            flat_germline_set = pd.json_normalize(germline_set, sep='_')
-            flat_germline_set = flat_germline_set.add_prefix(f'germline_set_{idx}_')
-
-            extract_nested_json(flat_germline_set, germline_set, 'trait_xrefs', f'germline_set_{idx}_trait_xrefs', 'trait_xrefs')
-
-            flat_germline_set = flat_germline_set.drop(columns=[f'germline_set_{idx}_trait_xrefs'])
-            flattened_entry = flattened_entry.join(flat_germline_set, rsuffix=f'_{idx}_gls')
-
-        flattened_entry = flattened_entry.drop(columns=['variation_set',
-                                                        'genes',
-                                                        'germline_classification_trait_set'])
-
-        flattened_data.append(flattened_entry)
-
-    df = pd.concat(flattened_data, ignore_index=True)
-
-    return df
-
-
 def request_gnomad_api_data(gene_name, to_file=True):
     """
     Requests gnomAD API for data about a specific gene containing:
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index a838cd4..044e76d 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -132,121 +132,6 @@
    "outputs": [],
    "execution_count": null
   },
-  {
-   "metadata": {},
-   "cell_type": "code",
-   "source": [
-    "variation_ids = '148002'\n",
-    "\n",
-    "frames = request_clinvar_api_data(variation_ids)\n",
-    "\n",
-    "display(frames)"
-   ],
-   "id": "b21c3487476b684f",
-   "outputs": [],
-   "execution_count": null
-  },
-  {
-   "metadata": {},
-   "cell_type": "code",
-   "source": [
-    "clinvar_data = pd.read_csv(\"C:\\\\Users\\\\Kajus\\\\Desktop\\\\clinvar_results.txt\", sep='\\t')\n",
-    "\n",
-    "display(clinvar_data)"
-   ],
-   "id": "8cb4bbe3f35562d5",
-   "outputs": [],
-   "execution_count": null
-  },
-  {
-   "metadata": {},
-   "cell_type": "markdown",
-   "source": [
-    "Explanation of whats happening in the code below:\n",
-    "\n",
-    "Function to get all the ids from a gene name:\n",
-    "```python\n",
-    "get_variant_ids_from_clinvar_name_api(name: str, count: int)\n",
-    "```\n",
-    "\n",
-    "function gets the ids from the clinvar api, the name is the gene name and the count is the maximum number of ids to get (api's limit is 500)\n",
-    "\n",
-    "function returns a dictionary with the count and the list of ids:\n",
-    "\n",
-    "```json\n",
-    "{\n",
-    "    'count': int,\n",
-    "    'idlist': List[str]\n",
-    "}\n",
-    "```\n",
-    "\n",
-    "if the count is greater than the api's limit, the function will split the list of ids into smaller lists of 500 and then request the data from the api in chunks of 500 ids:\n",
-    "\n",
-    "```python\n",
-    "id_lists = [id_list[i:i + max] for i in range(0, size, max)]\n",
-    "```\n",
-    "\n",
-    "then the function will request the data from the api and concatenate the dataframes into a single dataframe:\n",
-    "\n",
-    "```python\n",
-    "frames = request_clinvar_api_data(join)\n",
-    "variations = pd.concat([variations, frames], ignore_index=True)\n",
-    "```\n",
-    "\n",
-    "The variant extraction function contains a lot of nested lists and dictionaries, so the function will flatten the data and then concatenate the dataframes into a single dataframe\n",
-    "\n",
-    "**NOTE**\n",
-    "\n",
-    "> joining function may have been implemented wrong due to the waiting time of the api.\n"
-   ],
-   "id": "976f9632a8ef29e3"
-  },
-  {
-   "metadata": {},
-   "cell_type": "code",
-   "source": [
-    "import pandas as pd\n",
-    "\n",
-    "variations = pd.DataFrame()\n",
-    "\n",
-    "max = 500\n",
-    "name = \"EYS\"\n",
-    "count = 2147483647\n",
-    "\n",
-    "id_array = get_variant_ids_from_clinvar_name_api(name, count)\n",
-    "size = int(id_array['count'])\n",
-    "id_list = id_array['idlist']\n",
-    "\n",
-    "id_lists = [id_list[i:i + max] for i in range(0, size, max)]\n",
-    "\n",
-    "track = 0\n",
-    "for lists in id_lists:\n",
-    "    join = \",\".join(lists)\n",
-    "    frame = request_clinvar_api_data(join)\n",
-    "    \n",
-    "    variations = pd.concat([variations, frame], ignore_index=True)\n",
-    "    \n",
-    "    print(f\"{track + 1}/{len(id_lists)}\")\n",
-    "    track += 1\n",
-    "\n",
-    "display(variations)\n"
-   ],
-   "id": "129175e3a2e568be",
-   "outputs": [],
-   "execution_count": null
-  },
-  {
-   "metadata": {},
-   "cell_type": "code",
-   "source": [
-    "clinvar_data = pd.read_csv('C:\\\\Users\\\\Kajus\\\\Desktop\\\\clinvar_result.txt', sep='\\t')\n",
-    "\n",
-    "display(clinvar_data)"
-   ],
-   "id": "c85507a3e2c584da",
-   "outputs": [],
-   "execution_count": null
-  },
   {
    "metadata": {
     "ExecuteTime": {

From 4d3575a2e77834118bf4d4a51c2ccf6ae95f83c5 Mon Sep 17 00:00:00 2001
From: Kajus CC <42713684+KajusC@users.noreply.github.com>
Date: Wed, 28 Aug 2024 21:33:19 +0300
Subject: [PATCH 08/10] Downloaded data from API, formatted code

---
 api/data/__init__.py    |   7 +-
 api/data/refactoring.py | 110 ++++++------
 tests/pipeline.ipynb    | 359 ++++++++++++++++------------------------
 3 files changed, 203 insertions(+), 273 deletions(-)

diff --git a/api/data/__init__.py b/api/data/__init__.py
index 7cd3997..bd40c79 100644
--- a/api/data/__init__.py
+++ b/api/data/__init__.py
@@ -28,7 +28,9 @@
   LOVD_TABLES_DATA_TYPES,
 
   # Paths for database downloads
-  DATABASES_DOWNLOAD_PATHS
+  DATABASES_DOWNLOAD_PATHS,
+
+  GNOMAD_PATH,
 )
 
 # DATA COLLECTION IMPORT
@@ -57,4 +59,7 @@
     from_clinvar_name_to_cdna_position,
     save_lovd_as_vcf,
     request_gnomad_api_data,
+    merge_gnomad_lovd,
+    parse_gnomad,
+    set_gnomad_dtypes,
 )
diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index 8aa880d..f2fd6cd 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -247,7 +247,18 @@ def save_lovd_as_vcf(data, save_to="./lovd.vcf"):
             f.write("\n")
 
 
-def request_gnomad_api_data(gene_name, to_file=True):
+def process_population_data(df, pop_data, name, pop_ids, index):
+    for pop_id in pop_ids:
+        df.loc[index, f'{name}_ac_{pop_id}'] = 0
+        df.loc[index, f'{name}_an_{pop_id}'] = 0
+    if isinstance(pop_data, list):
+        for pop in pop_data:
+            variant_id = pop['id']
+            df.loc[index, f'{name}_ac_{variant_id}'] = pop['ac']
+            df.loc[index, f'{name}_an_{variant_id}'] = pop['an']
+
+
+def request_gnomad_api_data(gene_name):
     """
     Requests gnomAD API for data about a specific gene containing:
     - variant_id
@@ -305,44 +316,38 @@ def request_gnomad_api_data(gene_name, to_file=True):
     }}
     """
 
-    response = requests.post(url, json={'query': query})
-    if response.status_code == 200:
-        data = response.json()['data']['gene']['variants']
-
-        df = pd.json_normalize(data)
-
-        df['total_ac'] = df['exome.ac'].fillna(0) + df['genome.ac'].fillna(0)
-        df['total_an'] = df['exome.an'].fillna(0) + df['genome.an'].fillna(0)
-
-        df['cDNA change'] = df['hgvsc'].fillna(0)
-        df['Protein change'] = df['hgvsp'].fillna(0)
-
-        df['Allele Frequency'] = df['total_ac'] / df['total_an']
-        df['Homozygote Count'] = df['exome.ac_hom'].fillna(0) + df['genome.ac_hom'].fillna(0)
-        exome_populations = df['exome.populations']
-        genome_populations = df['genome.populations']
-        ids = ['afr', 'eas', 'asj', 'sas', 'nfe', 'fin', 'mid', 'amr', 'ami', 'remaining']
-
-        def process_population_data(pop_data, name, pop_ids, index):
-            for pop_id in pop_ids:
-                df.loc[index, f'{name}_ac_{pop_id}'] = 0
-                df.loc[index, f'{name}_an_{pop_id}'] = 0
-            if type(pop_data) == list:
-                for pop in pop_data:
-                    id = pop['id']
-                    df.loc[index, f'{name}_ac_{id}'] = pop['ac']
-                    df.loc[index, f'{name}_an_{id}'] = pop['an']
-
-        for i in range(len(exome_populations)):
-            exome_pop = exome_populations[i]
-            process_population_data(exome_pop, 'exome', ids, i)
-            genome_pop = genome_populations[i]
-            process_population_data(genome_pop, 'genome', ids, i)
-
-        for id in ids:
-            df[f'Allele_Frequency_{id}'] = (df[f'exome_ac_{id}'].fillna(0) + df[f'genome_ac_{id}'].fillna(0)) / (
-                        df[f'exome_an_{id}'].fillna(0) + df[f'genome_an_{id}'].fillna(0))
-        population_mapping = {
+    response = requests.post(url, json={'query': query}, timeout=300)# timeout set to 5 minutes
+
+    if response.status_code != 200:
+        print('Error:', response.status_code)
+        return None
+
+    data = response.json()['data']['gene']['variants']
+
+    df = pd.json_normalize(data)
+
+    df['total_ac'] = df['exome.ac'].fillna(0) + df['genome.ac'].fillna(0)
+    df['total_an'] = df['exome.an'].fillna(0) + df['genome.an'].fillna(0)
+
+    df['HGVS Consequence'] = df['hgvsc'].fillna(0) # cDNA change
+    df['Protein Consequence'] = df['hgvsp'].fillna(0) # Protein change
+
+    df['Allele Frequency'] = df['total_ac'] / df['total_an']
+    df['Homozygote Count'] = df['exome.ac_hom'].fillna(0) + df['genome.ac_hom'].fillna(0)
+    exome_populations = df['exome.populations']
+    genome_populations = df['genome.populations']
+    ids = ['afr', 'eas', 'asj', 'sas', 'nfe', 'fin', 'mid', 'amr', 'ami', 'remaining']
+
+    for i in range(len(exome_populations)):
+        exome_pop = exome_populations[i]
+        process_population_data(df, exome_pop, 'exome', ids, i)
+        genome_pop = genome_populations[i]
+        process_population_data(df, genome_pop, 'genome', ids, i)
+
+    for variant_id in ids:
+        df[f'Allele_Frequency_{variant_id}'] = (df[f'exome_ac_{variant_id}'].fillna(0) + df[f'genome_ac_{variant_id}'].fillna(0)) / (
+                        df[f'exome_an_{variant_id}'].fillna(0) + df[f'genome_an_{variant_id}'].fillna(0))
+    population_mapping = {
             'afr': 'African/African American',
             'eas': 'East Asian',
             'asj': 'Ashkenazi Jew',
@@ -355,22 +360,19 @@ def process_population_data(pop_data, name, pop_ids, index):
             'remaining': 'Remaining',
             '': ''
         }
-        for i in range(len(df)):
-            max = 0
-            maxid = ''
-            for id in ids:
-                if df.loc[i, f'Allele_Frequency_{id}'] > max:
-                    max = df.loc[i, f'Allele_Frequency_{id}']
-                    maxid = id
-            df.loc[i, 'Popmax'] = max
-            df.loc[i, 'Popmax population'] = population_mapping[maxid]
-        not_to_drop = ['Popmax', 'Popmax population', 'Homozygote Count', 'Allele Frequency', 'variant_id',
+    for i in range(len(df)):
+        max_pop = 0
+        maxid = ''
+        for variant_id in ids:
+            if df.loc[i, f'Allele_Frequency_{variant_id}'] > max_pop:
+                max_pop = df.loc[i, f'Allele_Frequency_{variant_id}']
+                maxid = variant_id
+        df.loc[i, 'Popmax'] = max_pop
+        df.loc[i, 'Popmax population'] = population_mapping[maxid]
+    not_to_drop = ['Popmax', 'Popmax population', 'Homozygote Count', 'Allele Frequency', 'variant_id',
                        'cDNA change', 'Protein change']
-        df = df.drop([col for col in df.columns if col not in not_to_drop], axis=1)
-        if to_file:
-            df.to_csv('variants.csv', index=True)
+    df = df.drop([col for col in df.columns if col not in not_to_drop], axis=1)
 
-    else:
-        print('Error:', response.status_code)
+    df.rename(columns={'variant_id': 'gnomAD ID'}, inplace=True)
 
     return df
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index fb86c24..6734e80 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -7,10 +7,6 @@
     "collapsed": true,
     "jupyter": {
      "outputs_hidden": true
-    },
-    "ExecuteTime": {
-     "end_time": "2024-08-22T17:20:23.240355Z",
-     "start_time": "2024-08-22T17:20:21.651097Z"
     }
    },
    "source": [
@@ -19,30 +15,28 @@
     "\n",
     "from api.data import (store_database_for_eys_gene,\n",
     "                      parse_lovd,\n",
+    "                      parse_gnomad,\n",
     "                      LOVD_PATH,\n",
     "                      set_lovd_dtypes,\n",
-    "                      request_clinvar_api_data,\n",
-    "                      get_variant_ids_from_clinvar_name_api,\n",
+    "                      set_gnomad_dtypes,\n",
     "                      request_gnomad_api_data,\n",
+    "                      merge_gnomad_lovd,\n",
+    "                      GNOMAD_PATH,\n",
     "                      )\n",
     "from api.data import save_lovd_as_vcf\n",
     "\n",
+    "\n",
     "pd.options.display.max_columns = 0"
    ],
    "outputs": [],
-   "execution_count": 1
+   "execution_count": null
   },
   {
    "cell_type": "code",
    "id": "f49f7691a27aa7b4",
    "metadata": {
-    "collapsed": false,
-    "ExecuteTime": {
-     "end_time": "2024-08-11T16:16:57.305309Z",
-     "start_time": "2024-08-11T16:16:56.668571Z"
-    }
+    "collapsed": false
    },
-
    "source": [
     "store_database_for_eys_gene(\"lovd\", override=False)"
    ],
@@ -53,12 +47,10 @@
    "cell_type": "code",
    "id": "cf5c45c0f7b9de0f",
    "metadata": {
-
     "collapsed": false,
     "jupyter": {
      "outputs_hidden": false
     }
-
    },
    "source": [
     "data = parse_lovd(LOVD_PATH + \"/lovd_data.txt\")"
@@ -67,62 +59,177 @@
    "execution_count": null
   },
   {
+   "metadata": {},
    "cell_type": "code",
-   "id": "8a089e29bfc8c119",
+   "source": [
+    "gnomad_data = request_gnomad_api_data(\"EYS\")\n",
+    "\n",
+    "display(gnomad_data)"
+   ],
+   "id": "64482c033c794fb4",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-08-28T18:11:25.802540Z",
+     "start_time": "2024-08-28T18:11:25.715039Z"
+    }
+   },
+   "cell_type": "code",
+   "source": [
+    "store_database_for_eys_gene('gnomad', False)\n",
+    "\n",
+    "gnomad_data_2 = parse_gnomad(GNOMAD_PATH +'/gnomad_data.csv')"
+   ],
+   "id": "60f3f3074a9b19f4",
+   "outputs": [],
+   "execution_count": 24
+  },
+  {
    "metadata": {},
+   "cell_type": "code",
+   "source": "display(gnomad_data_2)",
+   "id": "9d3e4d6b5f7be127",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-08-28T18:11:35.536411Z",
+     "start_time": "2024-08-28T18:11:35.258009Z"
+    }
+   },
+   "cell_type": "code",
    "source": [
-    "for i in data:\n",
-    "    print(i)\n",
-    "    display(data[i])"
+    "gnomad_data_2.to_csv('C:\\\\Users\\\\Kajus\\\\Desktop\\\\gnomad_data_downloaded.csv', index=False)\n",
+    "gnomad_data.to_csv('C:\\\\Users\\\\Kajus\\\\Desktop\\\\gnomad_data_api.csv', index=False)"
+   ],
+   "id": "2e869f5c77dbe3d3",
+   "outputs": [],
+   "execution_count": 26
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": [
+    "len(gnomad_data_2), len(gnomad_data)\n",
+    "\n",
+    "print(len(gnomad_data_2) - len(gnomad_data))"
    ],
+   "id": "9efafb201061c146",
    "outputs": [],
    "execution_count": null
   },
   {
+   "metadata": {},
    "cell_type": "code",
-   "id": "ef07740b2fa63e42",
+   "source": [
+    "gnomad_data_2.rename(columns={'gnomAD ID': 'variant_id'}, inplace=True)\n",
+    "\n",
+    "missing_from_api = []\n",
+    "\n",
+    "for i in gnomad_data['variant_id']:\n",
+    "    if(i in gnomad_data_2['variant_id'].values):\n",
+    "        continue\n",
+    "    missing_from_api.append(i)\n",
+    "\n",
+    "len(missing_from_api)\n",
+    "\n",
+    "missing_data = gnomad_data.loc[gnomad_data['variant_id'].isin(missing_from_api)]\n",
+    "\n",
+    "missing_data"
+   ],
+   "id": "d0eb0a6db96d31c8",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
    "metadata": {
-    "collapsed": false,
-    "jupyter": {
-     "outputs_hidden": false
+    "ExecuteTime": {
+     "end_time": "2024-08-28T18:06:31.488622Z",
+     "start_time": "2024-08-28T18:06:31.471299Z"
     }
    },
+   "cell_type": "code",
+   "source": "missing_data.to_csv('C:\\\\Users\\\\Kajus\\\\Desktop\\\\gnomad_data_missing.csv', index=False)",
+   "id": "388120b03b094511",
+   "outputs": [],
+   "execution_count": 23
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
    "source": [
     "set_lovd_dtypes(data)\n",
+    "set_gnomad_dtypes(gnomad_data)\n",
+    "\n",
+    "variants_on_genome = data[\"Variants_On_Genome\"].copy()\n",
+    "\n",
+    "lovd_data = pd.merge(data[\"Variants_On_Transcripts\"],\n",
+    "                       variants_on_genome[['id','VariantOnGenome/DNA/hg38']],\n",
+    "                       on='id',\n",
+    "                       how='left')\n",
+    "\n",
+    "gnomad_data = gnomad_data.copy()\n",
+    "final_data = merge_gnomad_lovd(lovd_data, gnomad_data)\n",
+    "final_data"
+   ],
+   "id": "96453d88e353aeb1",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
+   "metadata": {},
+   "cell_type": "code",
+   "source": [
     "for i in data:\n",
     "    print(i)\n",
-    "    display(data[i].info())"
+    "    display(data[i])"
    ],
+   "id": "8a089e29bfc8c119",
    "outputs": [],
    "execution_count": null
   },
   {
-   "cell_type": "code",
-   "id": "c968af1617be40db",
    "metadata": {},
+   "cell_type": "code",
    "source": [
-    "save_lovd_as_vcf(data[\"Variants_On_Genome\"], \"./lovd.vcf\")"
+    "set_lovd_dtypes(data)\n",
+    "for i in data:\n",
+    "    print(i)\n",
+    "    display(data[i].info())"
    ],
+   "id": "ef07740b2fa63e42",
    "outputs": [],
    "execution_count": null
   },
   {
+   "metadata": {},
    "cell_type": "code",
-   "id": "c7ff16903e0c52bd",
+   "source": "save_lovd_as_vcf(data[\"Variants_On_Genome\"], \"./lovd.vcf\")",
+   "id": "c968af1617be40db",
+   "outputs": [],
+   "execution_count": null
+  },
+  {
    "metadata": {},
+   "cell_type": "code",
    "source": [
     "from subprocess import Popen\n",
     "\n",
     "process = Popen(\"spliceai -I ./lovd.vcf -O ./lovd_output.vcf -R ../tools/spliceai/hg38.fa -A grch38\".split())\n",
     "process.wait()"
    ],
+   "id": "c7ff16903e0c52bd",
    "outputs": [],
    "execution_count": null
   },
   {
-   "cell_type": "code",
-   "id": "0514ccc3-5c91-41ad-ab15-f4158030ea14",
    "metadata": {},
+   "cell_type": "code",
    "source": [
     "from api.tools import get_revel_scores\n",
     "\n",
@@ -133,201 +240,17 @@
     "\n",
     "display(results)"
    ],
+   "id": "0514ccc3-5c91-41ad-ab15-f4158030ea14",
    "outputs": [],
    "execution_count": null
   },
-  {
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-08-22T17:23:41.828469Z",
-     "start_time": "2024-08-22T17:21:09.627424Z"
-    }
-   },
-   "cell_type": "code",
-   "source": [
-    "gnomad_from_api = request_gnomad_api_data(\"EYS\", False)\n",
-    "\n",
-    "display(gnomad_from_api)"
-   ],
-   "id": "64482c033c794fb4",
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "           variant_id cDNA change  ...    Popmax         Popmax population\n",
-       "0      6-63720525-A-G    c.*71T>C  ...  0.000016  African/African American\n",
-       "1      6-63720525-A-T    c.*71T>A  ...  0.000192                East Asian\n",
-       "2      6-63720525-A-C    c.*71T>G  ...  0.000000                          \n",
-       "3      6-63720526-T-A    c.*70A>T  ...  0.000020               South Asian\n",
-       "4      6-63720527-G-T    c.*69C>A  ...  0.000000                          \n",
-       "...               ...         ...  ...       ...                       ...\n",
-       "14295  6-65495479-G-T    c.-69C>A  ...  0.000000                          \n",
-       "14296  6-65495479-G-A    c.-69C>T  ...  0.000031  African/African American\n",
-       "14297  6-65495482-A-G    c.-72T>C  ...  0.000070          Admixed American\n",
-       "14298  6-65495484-T-G    c.-74A>C  ...  0.000060               South Asian\n",
-       "14299  6-65495485-T-C    c.-75A>G  ...  0.000012               South Asian\n",
-       "\n",
-       "[14300 rows x 7 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>variant_id</th>\n",
-       "      <th>cDNA change</th>\n",
-       "      <th>Protein change</th>\n",
-       "      <th>Allele Frequency</th>\n",
-       "      <th>Homozygote Count</th>\n",
-       "      <th>Popmax</th>\n",
-       "      <th>Popmax population</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>6-63720525-A-G</td>\n",
-       "      <td>c.*71T&gt;C</td>\n",
-       "      <td>0</td>\n",
-       "      <td>1.807419e-06</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000016</td>\n",
-       "      <td>African/African American</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>6-63720525-A-T</td>\n",
-       "      <td>c.*71T&gt;A</td>\n",
-       "      <td>0</td>\n",
-       "      <td>6.573844e-06</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000192</td>\n",
-       "      <td>East Asian</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>6-63720525-A-C</td>\n",
-       "      <td>c.*71T&gt;G</td>\n",
-       "      <td>0</td>\n",
-       "      <td>0.000000e+00</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000000</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>6-63720526-T-A</td>\n",
-       "      <td>c.*70A&gt;T</td>\n",
-       "      <td>0</td>\n",
-       "      <td>1.045299e-06</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000020</td>\n",
-       "      <td>South Asian</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>6-63720527-G-T</td>\n",
-       "      <td>c.*69C&gt;A</td>\n",
-       "      <td>0</td>\n",
-       "      <td>0.000000e+00</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000000</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14295</th>\n",
-       "      <td>6-65495479-G-T</td>\n",
-       "      <td>c.-69C&gt;A</td>\n",
-       "      <td>0</td>\n",
-       "      <td>0.000000e+00</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000000</td>\n",
-       "      <td></td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14296</th>\n",
-       "      <td>6-65495479-G-A</td>\n",
-       "      <td>c.-69C&gt;T</td>\n",
-       "      <td>0</td>\n",
-       "      <td>1.446349e-06</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000031</td>\n",
-       "      <td>African/African American</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14297</th>\n",
-       "      <td>6-65495482-A-G</td>\n",
-       "      <td>c.-72T&gt;C</td>\n",
-       "      <td>0</td>\n",
-       "      <td>2.629510e-06</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000070</td>\n",
-       "      <td>Admixed American</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14298</th>\n",
-       "      <td>6-65495484-T-G</td>\n",
-       "      <td>c.-74A&gt;C</td>\n",
-       "      <td>0</td>\n",
-       "      <td>3.645085e-06</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000060</td>\n",
-       "      <td>South Asian</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14299</th>\n",
-       "      <td>6-65495485-T-C</td>\n",
-       "      <td>c.-75A&gt;G</td>\n",
-       "      <td>0</td>\n",
-       "      <td>7.310070e-07</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000012</td>\n",
-       "      <td>South Asian</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>14300 rows × 7 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "metadata": {},
-     "output_type": "display_data"
-    }
-   ],
-   "execution_count": 2
-  },
   {
    "metadata": {},
    "cell_type": "code",
-   "outputs": [],
-   "execution_count": null,
    "source": "",
-   "id": "6f0abfb50bd211a0"
-
+   "id": "6f0abfb50bd211a0",
+   "outputs": [],
+   "execution_count": null
   }
  ],
  "metadata": {

From 437954ab2c5781cffeae7161b3e5b96016045ccc Mon Sep 17 00:00:00 2001
From: Kajus CC <42713684+KajusC@users.noreply.github.com>
Date: Mon, 2 Sep 2024 21:50:20 +0300
Subject: [PATCH 09/10] Refactored and resolved PR comments

---
 api/data/refactoring.py |  56 ++++-----
 tests/pipeline.ipynb    | 253 +++++++++++++++++++++++++++++++++++-----
 2 files changed, 256 insertions(+), 53 deletions(-)

diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index f2fd6cd..0c32241 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -316,37 +316,37 @@ def request_gnomad_api_data(gene_name):
     }}
     """
 
-    response = requests.post(url, json={'query': query}, timeout=300)# timeout set to 5 minutes
+    response = requests.post(url, json={'query': query}, timeout=300)  # timeout set to 5 minutes
 
     if response.status_code != 200:
         print('Error:', response.status_code)
-        return None
 
     data = response.json()['data']['gene']['variants']
 
     df = pd.json_normalize(data)
 
-    df['total_ac'] = df['exome.ac'].fillna(0) + df['genome.ac'].fillna(0)
-    df['total_an'] = df['exome.an'].fillna(0) + df['genome.an'].fillna(0)
+    df.loc[:, 'total_ac'] = df.loc[:, 'exome.ac'].fillna(0) + df.loc[:, 'genome.ac'].fillna(0)
+    df.loc[:, 'total_an'] = df.loc[:, 'exome.an'].fillna(0) + df.loc[:, 'genome.an'].fillna(0)
 
-    df['HGVS Consequence'] = df['hgvsc'].fillna(0) # cDNA change
-    df['Protein Consequence'] = df['hgvsp'].fillna(0) # Protein change
+    df.loc[:, 'HGVS Consequence'] = df.loc[:, 'hgvsc'].fillna(0)  # cDNA change
+    df.loc[:, 'Protein Consequence'] = df.loc[:, 'hgvsp'].fillna(0)  # Protein change
 
-    df['Allele Frequency'] = df['total_ac'] / df['total_an']
-    df['Homozygote Count'] = df['exome.ac_hom'].fillna(0) + df['genome.ac_hom'].fillna(0)
-    exome_populations = df['exome.populations']
-    genome_populations = df['genome.populations']
-    ids = ['afr', 'eas', 'asj', 'sas', 'nfe', 'fin', 'mid', 'amr', 'ami', 'remaining']
+    df.loc[:, 'Allele Frequency'] = df.loc[:, 'total_ac'] / df.loc[:, 'total_an']
+    df.loc[:, 'Homozygote Count'] = df.loc[:, 'exome.ac_hom'].fillna(0) + df.loc[:, 'genome.ac_hom'].fillna(0)
+    exome_populations = df.loc[:, 'exome.populations']
+    genome_populations = df.loc[:, 'genome.populations']
+    population_ids = ['afr', 'eas', 'asj', 'sas', 'nfe', 'fin', 'mid', 'amr', 'ami', 'remaining']
 
     for i in range(len(exome_populations)):
         exome_pop = exome_populations[i]
-        process_population_data(df, exome_pop, 'exome', ids, i)
+        process_population_data(df, exome_pop, 'exome', population_ids, i)
         genome_pop = genome_populations[i]
-        process_population_data(df, genome_pop, 'genome', ids, i)
+        process_population_data(df, genome_pop, 'genome', population_ids, i)
 
-    for variant_id in ids:
-        df[f'Allele_Frequency_{variant_id}'] = (df[f'exome_ac_{variant_id}'].fillna(0) + df[f'genome_ac_{variant_id}'].fillna(0)) / (
-                        df[f'exome_an_{variant_id}'].fillna(0) + df[f'genome_an_{variant_id}'].fillna(0))
+    for population_id in population_ids:
+        df.loc[:, f'Allele_Frequency_{population_id}'] = (
+               (df.loc[:, f'exome_ac_{population_id}'].fillna(0) + df.loc[:, f'genome_ac_{population_id}'].fillna(0)) / (
+                df.loc[:, f'exome_an_{population_id}'].fillna(0) + df.loc[:, f'genome_an_{population_id}'].fillna(0)))
     population_mapping = {
             'afr': 'African/African American',
             'eas': 'East Asian',
@@ -360,19 +360,21 @@ def request_gnomad_api_data(gene_name):
             'remaining': 'Remaining',
             '': ''
         }
-    for i in range(len(df)):
+
+    for i in range(df.shape[0]):
         max_pop = 0
-        maxid = ''
-        for variant_id in ids:
-            if df.loc[i, f'Allele_Frequency_{variant_id}'] > max_pop:
-                max_pop = df.loc[i, f'Allele_Frequency_{variant_id}']
-                maxid = variant_id
+        max_id = ''
+        for population_id in population_ids:
+            if df.loc[i, f'Allele_Frequency_{population_id}'] > max_pop:
+                max_pop = df.loc[i, f'Allele_Frequency_{population_id}']
+                max_id = population_id
         df.loc[i, 'Popmax'] = max_pop
-        df.loc[i, 'Popmax population'] = population_mapping[maxid]
-    not_to_drop = ['Popmax', 'Popmax population', 'Homozygote Count', 'Allele Frequency', 'variant_id',
-                       'cDNA change', 'Protein change']
-    df = df.drop([col for col in df.columns if col not in not_to_drop], axis=1)
+        df.loc[i, 'Popmax population'] = population_mapping[max_id]
+    not_to_drop = ['Popmax', 'Popmax population', 'Homozygote Count', 'Allele Frequency',
+                   'variant_id', 'cDNA change', 'Protein change']
+
+    df = df.filter(not_to_drop, axis="columns")
 
-    df.rename(columns={'variant_id': 'gnomAD ID'}, inplace=True)
+    df.rename(columns={'variant_id': 'gnomAD ID'})
 
     return df
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index 6734e80..45c74af 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -7,6 +7,10 @@
     "collapsed": true,
     "jupyter": {
      "outputs_hidden": true
+    },
+    "ExecuteTime": {
+     "end_time": "2024-09-02T18:45:02.492330Z",
+     "start_time": "2024-09-02T18:45:02.488185Z"
     }
    },
    "source": [
@@ -29,7 +33,7 @@
     "pd.options.display.max_columns = 0"
    ],
    "outputs": [],
-   "execution_count": null
+   "execution_count": 11
   },
   {
    "cell_type": "code",
@@ -59,7 +63,11 @@
    "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:42:20.091398Z"
+    }
+   },
    "cell_type": "code",
    "source": [
     "gnomad_data = request_gnomad_api_data(\"EYS\")\n",
@@ -73,8 +81,7 @@
   {
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2024-08-28T18:11:25.802540Z",
-     "start_time": "2024-08-28T18:11:25.715039Z"
+     "start_time": "2024-09-02T18:44:44.422287Z"
     }
    },
    "cell_type": "code",
@@ -85,10 +92,14 @@
    ],
    "id": "60f3f3074a9b19f4",
    "outputs": [],
-   "execution_count": 24
+   "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:44:44.497881Z"
+    }
+   },
    "cell_type": "code",
    "source": "display(gnomad_data_2)",
    "id": "9d3e4d6b5f7be127",
@@ -98,8 +109,7 @@
   {
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2024-08-28T18:11:35.536411Z",
-     "start_time": "2024-08-28T18:11:35.258009Z"
+     "start_time": "2024-09-02T18:44:44.546361Z"
     }
    },
    "cell_type": "code",
@@ -109,10 +119,14 @@
    ],
    "id": "2e869f5c77dbe3d3",
    "outputs": [],
-   "execution_count": 26
+   "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:44:44.806484Z"
+    }
+   },
    "cell_type": "code",
    "source": [
     "len(gnomad_data_2), len(gnomad_data)\n",
@@ -124,21 +138,180 @@
    "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-09-02T18:45:06.035450Z",
+     "start_time": "2024-09-02T18:45:06.022832Z"
+    }
+   },
+   "cell_type": "code",
+   "source": "gnomad_data",
+   "id": "96283480cccf641",
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "         Popmax         Popmax population  ...  Allele Frequency      variant_id\n",
+       "0      0.000016  African/African American  ...      1.807419e-06  6-63720525-A-G\n",
+       "1      0.000192                East Asian  ...      6.573844e-06  6-63720525-A-T\n",
+       "2      0.000000                            ...      0.000000e+00  6-63720525-A-C\n",
+       "3      0.000020               South Asian  ...      1.045299e-06  6-63720526-T-A\n",
+       "4      0.000000                            ...      0.000000e+00  6-63720527-G-T\n",
+       "...         ...                       ...  ...               ...             ...\n",
+       "14295  0.000000                            ...      0.000000e+00  6-65495479-G-T\n",
+       "14296  0.000031  African/African American  ...      1.446349e-06  6-65495479-G-A\n",
+       "14297  0.000070          Admixed American  ...      2.629510e-06  6-65495482-A-G\n",
+       "14298  0.000060               South Asian  ...      3.645085e-06  6-65495484-T-G\n",
+       "14299  0.000012               South Asian  ...      7.310070e-07  6-65495485-T-C\n",
+       "\n",
+       "[14300 rows x 5 columns]"
+      ],
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Popmax</th>\n",
+       "      <th>Popmax population</th>\n",
+       "      <th>Homozygote Count</th>\n",
+       "      <th>Allele Frequency</th>\n",
+       "      <th>variant_id</th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>0</th>\n",
+       "      <td>0.000016</td>\n",
+       "      <td>African/African American</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>1.807419e-06</td>\n",
+       "      <td>6-63720525-A-G</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>0.000192</td>\n",
+       "      <td>East Asian</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>6.573844e-06</td>\n",
+       "      <td>6-63720525-A-T</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>0.000000</td>\n",
+       "      <td></td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000000e+00</td>\n",
+       "      <td>6-63720525-A-C</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>0.000020</td>\n",
+       "      <td>South Asian</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>1.045299e-06</td>\n",
+       "      <td>6-63720526-T-A</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>0.000000</td>\n",
+       "      <td></td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000000e+00</td>\n",
+       "      <td>6-63720527-G-T</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>...</th>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "      <td>...</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14295</th>\n",
+       "      <td>0.000000</td>\n",
+       "      <td></td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>0.000000e+00</td>\n",
+       "      <td>6-65495479-G-T</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14296</th>\n",
+       "      <td>0.000031</td>\n",
+       "      <td>African/African American</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>1.446349e-06</td>\n",
+       "      <td>6-65495479-G-A</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14297</th>\n",
+       "      <td>0.000070</td>\n",
+       "      <td>Admixed American</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>2.629510e-06</td>\n",
+       "      <td>6-65495482-A-G</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14298</th>\n",
+       "      <td>0.000060</td>\n",
+       "      <td>South Asian</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>3.645085e-06</td>\n",
+       "      <td>6-65495484-T-G</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>14299</th>\n",
+       "      <td>0.000012</td>\n",
+       "      <td>South Asian</td>\n",
+       "      <td>0.0</td>\n",
+       "      <td>7.310070e-07</td>\n",
+       "      <td>6-65495485-T-C</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "<p>14300 rows × 5 columns</p>\n",
+       "</div>"
+      ]
+     },
+     "execution_count": 12,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "execution_count": 12
+  },
+  {
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:44:44.827926Z"
+    }
+   },
    "cell_type": "code",
    "source": [
-    "gnomad_data_2.rename(columns={'gnomAD ID': 'variant_id'}, inplace=True)\n",
-    "\n",
     "missing_from_api = []\n",
     "\n",
-    "for i in gnomad_data['variant_id']:\n",
-    "    if(i in gnomad_data_2['variant_id'].values):\n",
+    "for i in gnomad_data['gnomAD ID']:\n",
+    "    if(i in gnomad_data_2['gnomAD ID'].values):\n",
     "        continue\n",
     "    missing_from_api.append(i)\n",
     "\n",
     "len(missing_from_api)\n",
     "\n",
-    "missing_data = gnomad_data.loc[gnomad_data['variant_id'].isin(missing_from_api)]\n",
+    "missing_data = gnomad_data.loc[gnomad_data['gnomAD ID'].isin(missing_from_api)]\n",
     "\n",
     "missing_data"
    ],
@@ -149,18 +322,21 @@
   {
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2024-08-28T18:06:31.488622Z",
-     "start_time": "2024-08-28T18:06:31.471299Z"
+     "start_time": "2024-09-02T18:44:45.626358Z"
     }
    },
    "cell_type": "code",
    "source": "missing_data.to_csv('C:\\\\Users\\\\Kajus\\\\Desktop\\\\gnomad_data_missing.csv', index=False)",
    "id": "388120b03b094511",
    "outputs": [],
-   "execution_count": 23
+   "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:44:45.626358Z"
+    }
+   },
    "cell_type": "code",
    "source": [
     "set_lovd_dtypes(data)\n",
@@ -182,7 +358,11 @@
    "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:44:45.627863Z"
+    }
+   },
    "cell_type": "code",
    "source": [
     "for i in data:\n",
@@ -194,7 +374,11 @@
    "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:44:45.628871Z"
+    }
+   },
    "cell_type": "code",
    "source": [
     "set_lovd_dtypes(data)\n",
@@ -207,7 +391,12 @@
    "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "end_time": "2024-09-02T18:44:45.646110Z",
+     "start_time": "2024-09-02T18:44:45.629871Z"
+    }
+   },
    "cell_type": "code",
    "source": "save_lovd_as_vcf(data[\"Variants_On_Genome\"], \"./lovd.vcf\")",
    "id": "c968af1617be40db",
@@ -215,7 +404,11 @@
    "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:44:45.630870Z"
+    }
+   },
    "cell_type": "code",
    "source": [
     "from subprocess import Popen\n",
@@ -228,7 +421,11 @@
    "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:44:45.631870Z"
+    }
+   },
    "cell_type": "code",
    "source": [
     "from api.tools import get_revel_scores\n",
@@ -245,7 +442,11 @@
    "execution_count": null
   },
   {
-   "metadata": {},
+   "metadata": {
+    "ExecuteTime": {
+     "start_time": "2024-09-02T18:44:45.631870Z"
+    }
+   },
    "cell_type": "code",
    "source": "",
    "id": "6f0abfb50bd211a0",

From 522cf7049a910502006920b60792d3df73409a14 Mon Sep 17 00:00:00 2001
From: Kajus CC <42713684+KajusC@users.noreply.github.com>
Date: Mon, 9 Sep 2024 23:09:42 +0300
Subject: [PATCH 10/10] Extra PR refactoring

---
 api/data/refactoring.py |  17 ++-
 tests/pipeline.ipynb    | 246 +++-------------------------------------
 2 files changed, 32 insertions(+), 231 deletions(-)

diff --git a/api/data/refactoring.py b/api/data/refactoring.py
index 0c32241..51f9a4c 100644
--- a/api/data/refactoring.py
+++ b/api/data/refactoring.py
@@ -247,7 +247,18 @@ def save_lovd_as_vcf(data, save_to="./lovd.vcf"):
             f.write("\n")
 
 
-def process_population_data(df, pop_data, name, pop_ids, index):
+def prepare_popmax_calculation(df, pop_data, name, pop_ids, index):
+    """
+    prepares the calculation of popmax and popmax population for a variant.
+    genome and exome data of ac and an.
+
+    :param DataFrame df: DataFrame containing gnomAD data
+    :param dict pop_data: dictionary containing population data
+    :param str name: name of the population
+    :param list[str] pop_ids: list of population ids
+    :param int index: index of the variant
+    """
+
     for pop_id in pop_ids:
         df.loc[index, f'{name}_ac_{pop_id}'] = 0
         df.loc[index, f'{name}_an_{pop_id}'] = 0
@@ -339,9 +350,9 @@ def request_gnomad_api_data(gene_name):
 
     for i in range(len(exome_populations)):
         exome_pop = exome_populations[i]
-        process_population_data(df, exome_pop, 'exome', population_ids, i)
+        prepare_popmax_calculation(df, exome_pop, 'exome', population_ids, i)
         genome_pop = genome_populations[i]
-        process_population_data(df, genome_pop, 'genome', population_ids, i)
+        prepare_popmax_calculation(df, genome_pop, 'genome', population_ids, i)
 
     for population_id in population_ids:
         df.loc[:, f'Allele_Frequency_{population_id}'] = (
diff --git a/tests/pipeline.ipynb b/tests/pipeline.ipynb
index 45c74af..71cf21d 100644
--- a/tests/pipeline.ipynb
+++ b/tests/pipeline.ipynb
@@ -7,10 +7,6 @@
     "collapsed": true,
     "jupyter": {
      "outputs_hidden": true
-    },
-    "ExecuteTime": {
-     "end_time": "2024-09-02T18:45:02.492330Z",
-     "start_time": "2024-09-02T18:45:02.488185Z"
     }
    },
    "source": [
@@ -33,7 +29,7 @@
     "pd.options.display.max_columns = 0"
    ],
    "outputs": [],
-   "execution_count": 11
+   "execution_count": null
   },
   {
    "cell_type": "code",
@@ -63,11 +59,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:42:20.091398Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "gnomad_data = request_gnomad_api_data(\"EYS\")\n",
@@ -79,11 +71,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:44.422287Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "store_database_for_eys_gene('gnomad', False)\n",
@@ -95,11 +83,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:44.497881Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": "display(gnomad_data_2)",
    "id": "9d3e4d6b5f7be127",
@@ -107,11 +91,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:44.546361Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "gnomad_data_2.to_csv('C:\\\\Users\\\\Kajus\\\\Desktop\\\\gnomad_data_downloaded.csv', index=False)\n",
@@ -122,11 +102,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:44.806484Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "len(gnomad_data_2), len(gnomad_data)\n",
@@ -138,168 +114,15 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-09-02T18:45:06.035450Z",
-     "start_time": "2024-09-02T18:45:06.022832Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": "gnomad_data",
    "id": "96283480cccf641",
-   "outputs": [
-    {
-     "data": {
-      "text/plain": [
-       "         Popmax         Popmax population  ...  Allele Frequency      variant_id\n",
-       "0      0.000016  African/African American  ...      1.807419e-06  6-63720525-A-G\n",
-       "1      0.000192                East Asian  ...      6.573844e-06  6-63720525-A-T\n",
-       "2      0.000000                            ...      0.000000e+00  6-63720525-A-C\n",
-       "3      0.000020               South Asian  ...      1.045299e-06  6-63720526-T-A\n",
-       "4      0.000000                            ...      0.000000e+00  6-63720527-G-T\n",
-       "...         ...                       ...  ...               ...             ...\n",
-       "14295  0.000000                            ...      0.000000e+00  6-65495479-G-T\n",
-       "14296  0.000031  African/African American  ...      1.446349e-06  6-65495479-G-A\n",
-       "14297  0.000070          Admixed American  ...      2.629510e-06  6-65495482-A-G\n",
-       "14298  0.000060               South Asian  ...      3.645085e-06  6-65495484-T-G\n",
-       "14299  0.000012               South Asian  ...      7.310070e-07  6-65495485-T-C\n",
-       "\n",
-       "[14300 rows x 5 columns]"
-      ],
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>Popmax</th>\n",
-       "      <th>Popmax population</th>\n",
-       "      <th>Homozygote Count</th>\n",
-       "      <th>Allele Frequency</th>\n",
-       "      <th>variant_id</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>0.000016</td>\n",
-       "      <td>African/African American</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>1.807419e-06</td>\n",
-       "      <td>6-63720525-A-G</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>0.000192</td>\n",
-       "      <td>East Asian</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>6.573844e-06</td>\n",
-       "      <td>6-63720525-A-T</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>0.000000</td>\n",
-       "      <td></td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000000e+00</td>\n",
-       "      <td>6-63720525-A-C</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>0.000020</td>\n",
-       "      <td>South Asian</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>1.045299e-06</td>\n",
-       "      <td>6-63720526-T-A</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>0.000000</td>\n",
-       "      <td></td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000000e+00</td>\n",
-       "      <td>6-63720527-G-T</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>...</th>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "      <td>...</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14295</th>\n",
-       "      <td>0.000000</td>\n",
-       "      <td></td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>0.000000e+00</td>\n",
-       "      <td>6-65495479-G-T</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14296</th>\n",
-       "      <td>0.000031</td>\n",
-       "      <td>African/African American</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>1.446349e-06</td>\n",
-       "      <td>6-65495479-G-A</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14297</th>\n",
-       "      <td>0.000070</td>\n",
-       "      <td>Admixed American</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>2.629510e-06</td>\n",
-       "      <td>6-65495482-A-G</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14298</th>\n",
-       "      <td>0.000060</td>\n",
-       "      <td>South Asian</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>3.645085e-06</td>\n",
-       "      <td>6-65495484-T-G</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>14299</th>\n",
-       "      <td>0.000012</td>\n",
-       "      <td>South Asian</td>\n",
-       "      <td>0.0</td>\n",
-       "      <td>7.310070e-07</td>\n",
-       "      <td>6-65495485-T-C</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "<p>14300 rows × 5 columns</p>\n",
-       "</div>"
-      ]
-     },
-     "execution_count": 12,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
-   "execution_count": 12
+   "outputs": [],
+   "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:44.827926Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "missing_from_api = []\n",
@@ -320,11 +143,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:45.626358Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": "missing_data.to_csv('C:\\\\Users\\\\Kajus\\\\Desktop\\\\gnomad_data_missing.csv', index=False)",
    "id": "388120b03b094511",
@@ -332,11 +151,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:45.626358Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "set_lovd_dtypes(data)\n",
@@ -358,11 +173,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:45.627863Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "for i in data:\n",
@@ -374,11 +185,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:45.628871Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "set_lovd_dtypes(data)\n",
@@ -391,12 +198,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2024-09-02T18:44:45.646110Z",
-     "start_time": "2024-09-02T18:44:45.629871Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": "save_lovd_as_vcf(data[\"Variants_On_Genome\"], \"./lovd.vcf\")",
    "id": "c968af1617be40db",
@@ -404,11 +206,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:45.630870Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "from subprocess import Popen\n",
@@ -421,11 +219,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:45.631870Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": [
     "from api.tools import get_revel_scores\n",
@@ -442,11 +236,7 @@
    "execution_count": null
   },
   {
-   "metadata": {
-    "ExecuteTime": {
-     "start_time": "2024-09-02T18:44:45.631870Z"
-    }
-   },
+   "metadata": {},
    "cell_type": "code",
    "source": "",
    "id": "6f0abfb50bd211a0",