Update quick_start tutorial

breimanntools · Oct 2, 2023 · 7179f13 · 7179f13
1 parent a5bb440
commit 7179f13
Show file tree

Hide file tree

Showing 44 changed files with 80 additions and 82 deletions.
diff --git a/.gitignore b/.gitignore
@@ -5,3 +5,4 @@
 /dev_scripts/
 /recipe/
 /tutorials/.ipynb_checkpoints/
+/aaanalysis/_archive/
diff --git a/aaanalysis/__pycache__/utils.cpython-39.pyc b/aaanalysis/__pycache__/utils.cpython-39.pyc
diff --git a/aaanalysis/_utils/__pycache__/_check_type.cpython-39.pyc b/aaanalysis/_utils/__pycache__/_check_type.cpython-39.pyc
diff --git a/aaanalysis/_utils/_check_type.py b/aaanalysis/_utils/_check_type.py
@@ -70,7 +70,7 @@ def check_tuple(name=None, val=None, n=None, check_n=True, accept_none=False):
         raise ValueError(f"'{name}' ({val}) should be a tuple with {n} elements.")
 
 
-def check_list(name=None, val=None, accept_none=False, convert=True):
+def check_list_like(name=None, val=None, accept_none=False, convert=True):
     """"""
     if accept_none and val is None:
         return None

diff --git a/aaanalysis/aaclust/__pycache__/aaclust.cpython-39.pyc b/aaanalysis/aaclust/__pycache__/aaclust.cpython-39.pyc
diff --git a/aaanalysis/aaclust/aaclust.py b/aaanalysis/aaclust/aaclust.py
@@ -248,7 +248,7 @@ def fit(self,
         # Check input
         X = ut.check_X(X=X)
         ut.check_X_unique_samples(X=X)
-        names = ut.check_list(name="names", val=names, accept_none=True)
+        names = ut.check_list_like(name="names", val=names, accept_none=True)
         ut.check_number_range(name="mint_th", val=min_th, min_val=0, max_val=1, just_int=False, accept_none=False)
         ut.check_number_range(name="n_clusters", val=n_clusters, min_val=1, just_int=True, accept_none=True)
         check_merge_metric(merge_metric=merge_metric)
@@ -391,7 +391,7 @@ def name_clusters(X: ut.ArrayLike2D,
         X = ut.check_X(X=X)
         ut.check_X_unique_samples(X=X)
         labels = ut.check_labels(labels=labels)
-        names = ut.check_list(name="names", val=names, accept_none=False)
+        names = ut.check_list_like(name="names", val=names, accept_none=False)
         ut.check_bool(name="shorten_names", val=shorten_names)
         ut.check_match_X_labels(X=X, labels=labels)
         check_match_X_names(X=X, names=names, accept_none=False)
@@ -487,7 +487,7 @@ def comp_correlation(X: ut.ArrayLike2D,
 
         Returns
         -------
-        df_corr
+        df_corr : pd.DataFrame
             DataFrame with correlation either for each pair in ``X`` of shape (n_samples, n_samples) or
             for each pair between ``X`` and ``X_ref`` of shape (n_samples, n_samples_ref).
 
@@ -535,15 +535,15 @@ def comp_coverage(names : [List[str]] =None,
         names
             List of sample names. Should be subset of ``names_ref``.
         names_ref
-            List of reference sample names. Should superset of ``names``.
+            List of reference sample names. Should be superset of ``names``.
 
         Returns
         -------
-        coverage
+        coverage : float
             Percentage of unique names from ``names`` that are found in ``names_ref``.
         """
-        names = ut.check_list(name="names", val=names, accept_none=False)
-        names_ref = ut.check_list(name="names_ref", val=names_ref, accept_none=False)
+        names = ut.check_list_like(name="names", val=names, accept_none=False)
+        names_ref = ut.check_list_like(name="names_ref", val=names_ref, accept_none=False)
         ut.check_superset_subset(subset=names, name_subset="names",
                                  superset=names_ref, name_superset="names_ref")
         # Compute coverage

diff --git a/aaanalysis/cpp/__pycache__/cpp.cpython-39.pyc b/aaanalysis/cpp/__pycache__/cpp.cpython-39.pyc
diff --git a/aaanalysis/cpp/__pycache__/cpp_plot.cpython-39.pyc b/aaanalysis/cpp/__pycache__/cpp_plot.cpython-39.pyc
diff --git a/aaanalysis/cpp/__pycache__/feature.cpython-39.pyc b/aaanalysis/cpp/__pycache__/feature.cpython-39.pyc
diff --git a/aaanalysis/cpp/cpp.py b/aaanalysis/cpp/cpp.py
@@ -3,7 +3,6 @@
 """
 import pandas as pd
 
-import aaanalysis.data_handling.load_scales_
 from aaanalysis.cpp.feature import SequenceFeature
 from aaanalysis.cpp._feature_stat import SequenceFeatureStatistics
 
@@ -60,9 +59,9 @@ def __init__(self, df_scales=None, df_cat=None, df_parts=None, split_kws=None,
         # Load default scales if not specified
         sf = SequenceFeature()
         if df_cat is None:
-            df_cat = aaanalysis.data_loader.load_scales_.load_scales(name=ut.STR_SCALE_CAT)
+            df_cat = aa.load_scales(name=ut.STR_SCALE_CAT)
         if df_scales is None:
-            df_scales = aaanalysis.data_loader.load_scales_.load_scales()
+            df_scales = aa.load_scales()
         if split_kws is None:
             split_kws = sf.get_split_kws()
         ut.check_bool(name="verbose", val=verbose)

diff --git a/aaanalysis/cpp/cpp_plot.py b/aaanalysis/cpp/cpp_plot.py
@@ -6,9 +6,8 @@
 import seaborn as sns
 import inspect
 
-import aaanalysis
-import aaanalysis.data_handling.load_scales_
 from aaanalysis.cpp._cpp import CPPPlots, get_optimal_fontsize
+import aaanalysis as aa
 
 import aaanalysis.utils as ut
 
@@ -230,7 +229,7 @@ def __init__(self, df_cat=None, accept_gaps=False, jmd_n_len=10, jmd_c_len=10, e
 
         ut.check_bool(name="verbose", val=verbose)
         if df_cat is None:
-            df_cat = aaanalysis.data_loader.load_scales_.load_scales(name=ut.COL_SCALE_ID)
+            df_cat = aa.load_scales(name=ut.COL_SCALE_ID)
             self.df_cat = df_cat
         self._verbose = verbose
         self._accept_gaps = accept_gaps

diff --git a/aaanalysis/cpp/feature.py b/aaanalysis/cpp/feature.py
@@ -10,7 +10,6 @@
 import multiprocessing as mp
 import warnings
 
-import aaanalysis.data_handling.load_scales_
 from aaanalysis.cpp._feature_pos import SequenceFeaturePositions
 from aaanalysis.cpp._split import Split, SplitRange
 from aaanalysis.cpp._part import Parts
@@ -343,7 +342,7 @@ def get_features(self, list_parts=None, split_kws=None, df_scales=None, all_part
         ut.check_split_kws(split_kws=split_kws)
         ut.check_df_scales(df_scales=df_scales, accept_none=True)
         if df_scales is None:
-            df_scales = aaanalysis.data_loader.load_scales_.load_scales()
+            df_scales = aa.load_scales()
         if split_kws is None:
             split_kws = self.get_split_kws()
         scales = list(df_scales)
@@ -387,7 +386,7 @@ def feat_matrix(features=None, df_parts=None, df_scales=None, accept_gaps=False,
         """
         ut.check_number_range(name="j_jobs", val=n_jobs, accept_none=True, min_val=1, just_int=True)
         if df_scales is None:
-            df_scales = aaanalysis.data_loader.load_scales_.load_scales()
+            df_scales = aa.load_scales()
         ut.check_df_scales(df_scales=df_scales)
         ut.check_df_parts(df_parts=df_parts)
         features = ut.check_features(features=features, parts=df_parts, df_scales=df_scales)
@@ -459,7 +458,7 @@ def feat_names(features=None, df_cat=None, tmd_len=20, jmd_c_len=10, jmd_n_len=1
         features = ut.check_features(features=features)
         ut.check_df_cat(df_cat=df_cat)
         if df_cat is None:
-            df_cat = aaanalysis.data_loader.load_scales_.load_scales(name=ut.STR_SCALE_CAT)
+            df_cat = aa.load_scales(name=ut.STR_SCALE_CAT)
         # Get feature names
         sfp = SequenceFeaturePositions()
         dict_part_pos = sfp.get_dict_part_pos(tmd_len=tmd_len, jmd_n_len=jmd_n_len, jmd_c_len=jmd_c_len,

diff --git a/aaanalysis/utils.py b/aaanalysis/utils.py
@@ -11,7 +11,7 @@
 
 # Import utility functions explicitly
 from aaanalysis._utils._check_type import (check_number_range, check_number_val, check_str, check_bool,
-                                           check_dict, check_tuple, check_list,
+                                           check_dict, check_tuple, check_list_like,
                                            check_ax)
 from aaanalysis._utils._check_data import (check_X,  check_X_unique_samples, check_labels, check_match_X_labels,
                                            check_superset_subset,

diff --git a/docs/build/doctrees/environment.pickle b/docs/build/doctrees/environment.pickle
diff --git a/docs/build/doctrees/generated/aaanalysis.AAclust.doctree b/docs/build/doctrees/generated/aaanalysis.AAclust.doctree
diff --git a/docs/build/doctrees/generated/aaanalysis.CPP.doctree b/docs/build/doctrees/generated/aaanalysis.CPP.doctree
diff --git a/docs/build/doctrees/generated/aaanalysis.CPPPlot.doctree b/docs/build/doctrees/generated/aaanalysis.CPPPlot.doctree
diff --git a/docs/build/doctrees/generated/aaanalysis.SequenceFeature.doctree b/docs/build/doctrees/generated/aaanalysis.SequenceFeature.doctree
diff --git a/docs/build/doctrees/generated/tutorial1_quick_start.doctree b/docs/build/doctrees/generated/tutorial1_quick_start.doctree
diff --git a/docs/build/html/_downloads/004048c0cbb6684bdb9047282ab71735/aaanalysis-plot_settings-2.pdf b/docs/build/html/_downloads/004048c0cbb6684bdb9047282ab71735/aaanalysis-plot_settings-2.pdf
diff --git a/docs/build/html/_downloads/163aacac4bd235c9af7a62d7b4d0c89f/aaanalysis-plot_get_cdict-1.pdf b/docs/build/html/_downloads/163aacac4bd235c9af7a62d7b4d0c89f/aaanalysis-plot_get_cdict-1.pdf
diff --git a/docs/build/html/_downloads/1f3abea1675a65bb341756c52c9927f4/aaanalysis-plot_gcfs-1.pdf b/docs/build/html/_downloads/1f3abea1675a65bb341756c52c9927f4/aaanalysis-plot_gcfs-1.pdf
diff --git a/docs/build/html/_downloads/72c2e4be500ecf10c85a4e6f81c365fc/aaanalysis-plot_legend-1.pdf b/docs/build/html/_downloads/72c2e4be500ecf10c85a4e6f81c365fc/aaanalysis-plot_legend-1.pdf
diff --git a/docs/build/html/_downloads/795a736e5af756908120c8bda412fd28/aaanalysis-plot_get_cmap-1.pdf b/docs/build/html/_downloads/795a736e5af756908120c8bda412fd28/aaanalysis-plot_get_cmap-1.pdf
diff --git a/docs/build/html/_downloads/88d7f3f7cb5a284c0bfaa377fb4ce1d8/aaanalysis-plot_get_clist-1.pdf b/docs/build/html/_downloads/88d7f3f7cb5a284c0bfaa377fb4ce1d8/aaanalysis-plot_get_clist-1.pdf
diff --git a/docs/build/html/_downloads/fb29bffb69140db4f68c4eb913c6f7d3/aaanalysis-plot_settings-1.pdf b/docs/build/html/_downloads/fb29bffb69140db4f68c4eb913c6f7d3/aaanalysis-plot_settings-1.pdf
diff --git a/docs/build/html/_images/output_13_1.png b/docs/build/html/_images/output_13_1.png
diff --git a/docs/build/html/_sources/generated/tutorial1_quick_start.rst.txt b/docs/build/html/_sources/generated/tutorial1_quick_start.rst.txt
@@ -69,9 +69,9 @@ set of 100 scales, as defined by the ``n_clusters`` parameters:
 
     from sklearn.cluster import AgglomerativeClustering
     
-    aac = aa.AAclust(model=AgglomerativeClustering)
-    X = np.array(df_scales)
-    scales = aac.fit(X, names=list(df_scales), n_clusters=100) 
+    aac = aa.AAclust(model_class=AgglomerativeClustering)
+    X = np.array(df_scales).T
+    scales = aac.fit(X, names=list(df_scales), n_clusters=100).medoid_names_ 
     df_scales = df_scales[scales]
 
 Comparative Physicochemical Profiling (CPP)
@@ -131,10 +131,10 @@ A feature matrix from a given set of CPP features can be created using
 
 .. parsed-literal::
 
-    Mean accuracy of 0.6
+    Mean accuracy of 0.58
 
 
-Creating more features with CPP will take some more time, but improve
+Creating more features with CPP will take a little time, but improve
 prediction performance:
 
 .. code:: ipython3
@@ -153,7 +153,7 @@ prediction performance:
     sns.barplot(pd.DataFrame({"Baseline": cv_base, "CPP": cv}), palette=["tab:blue", "tab:red"])
     plt.ylabel("Mean accuracy", size=aa.plot_gcfs()+1)
     plt.ylim(0, 1)
-    plt.title("Comparison of Feature Engineering Methods")
+    plt.title("Comparison of Feature Engineering Methods", size=aa.plot_gcfs()-1)
     sns.despine()
     plt.show()
 

diff --git a/docs/build/html/generated/aaanalysis.AAclust.html b/docs/build/html/generated/aaanalysis.AAclust.html
@@ -498,11 +498,11 @@ <h1>aaanalysis.AAclust<a class="headerlink" href="#aaanalysis-aaclust" title="Pe
 </ul>
 </dd>
 <dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>DataFrame with correlation either for each pair in <code class="docutils literal notranslate"><span class="pre">X</span></code> of shape (n_samples, n_samples) or
+<dd class="field-even"><p><strong>df_corr</strong> – DataFrame with correlation either for each pair in <code class="docutils literal notranslate"><span class="pre">X</span></code> of shape (n_samples, n_samples) or
 for each pair between <code class="docutils literal notranslate"><span class="pre">X</span></code> and <code class="docutils literal notranslate"><span class="pre">X_ref</span></code> of shape (n_samples, n_samples_ref).</p>
 </dd>
 <dt class="field-odd">Return type<span class="colon">:</span></dt>
-<dd class="field-odd"><p>df_corr</p>
+<dd class="field-odd"><p>pd.DataFrame</p>
 </dd>
 </dl>
 <div class="admonition-notes admonition">
@@ -532,14 +532,14 @@ <h1>aaanalysis.AAclust<a class="headerlink" href="#aaanalysis-aaclust" title="Pe
 <dt class="field-odd">Parameters<span class="colon">:</span></dt>
 <dd class="field-odd"><ul class="simple">
 <li><p><strong>names</strong> – List of sample names. Should be subset of <code class="docutils literal notranslate"><span class="pre">names_ref</span></code>.</p></li>
-<li><p><strong>names_ref</strong> – List of reference sample names. Should superset of <code class="docutils literal notranslate"><span class="pre">names</span></code>.</p></li>
+<li><p><strong>names_ref</strong> – List of reference sample names. Should be superset of <code class="docutils literal notranslate"><span class="pre">names</span></code>.</p></li>
 </ul>
 </dd>
 <dt class="field-even">Returns<span class="colon">:</span></dt>
-<dd class="field-even"><p>Percentage of unique names from <code class="docutils literal notranslate"><span class="pre">names</span></code> that are found in <code class="docutils literal notranslate"><span class="pre">names_ref</span></code>.</p>
+<dd class="field-even"><p><strong>coverage</strong> – Percentage of unique names from <code class="docutils literal notranslate"><span class="pre">names</span></code> that are found in <code class="docutils literal notranslate"><span class="pre">names_ref</span></code>.</p>
 </dd>
 <dt class="field-odd">Return type<span class="colon">:</span></dt>
-<dd class="field-odd"><p>coverage</p>
+<dd class="field-odd"><p><a class="reference external" href="https://docs.python.org/3/library/functions.html#float" title="(in Python v3.11)">float</a></p>
 </dd>
 </dl>
 </dd></dl>