commiting changes before lockout

bgenchel · bgenchel · commit 2cb22330bdda · 2023-12-04T16:45:38.000Z
diff --git a/basic_pitch/dataset/commandline.py b/basic_pitch/dataset/commandline.py
@@ -16,10 +16,8 @@
 # limitations under the License.
 
 import argparse
-import inspect
 import os
 import os.path as op
-import pdb
 
 
 def add_default(parser: argparse.ArgumentParser, dataset_name: str):
@@ -33,7 +31,8 @@ def add_default(parser: argparse.ArgumentParser, dataset_name: str):
                         help="If passed, the dataset will be put into a timestamp directory instead of 'splits'")
     parser.add_argument("--batch-size", default=5, type=int, help="Number of examples per tfrecord")
     parser.add_argument("--worker-harness-container-image", default="",
-                        help="Container image to run dataset generation job with. Required due to non-python dependencies")
+                        help="Container image to run dataset generation job with. \
+                        Required due to non-python dependencies.")
 
 
 def resolve_destination(namespace: argparse.Namespace, dataset: str, time_created: int) -> str:
diff --git a/basic_pitch/dataset/download.py b/basic_pitch/dataset/download.py
@@ -7,17 +7,18 @@
 from basic_pitch.dataset.medleydb_pitch import main as medleydb_pitch_main
 from basic_pitch.dataset.slakh import main as slakh_main
 
-dataset_dict = {
+DATASET_DICT = {
     'guitarset': guitarset_main,
     'ikala': ikala_main,
     'maestro': maestro_main,
     'medleydb_pitch': medleydb_pitch_main,
     'slakh': slakh_main
 }
 
+
 def main():
     dataset_parser = argparse.ArgumentParser()
-    dataset_parser.add_argument("dataset", choices=list(dataset_dict.keys()), help="The dataset to download / process.")
+    dataset_parser.add_argument("dataset", choices=list(DATASET_DICT.keys()), help="The dataset to download / process.")
     dataset = dataset_parser.parse_args().dataset
 
     print(f'got the arg: {dataset}')
@@ -26,7 +27,7 @@ def main():
     commandline.add_split(cl_parser)
     known_args, pipeline_args = cl_parser.parse_known_args()  # sys.argv)
 
-    dataset_dict[dataset](known_args, pipeline_args)
+    DATASET_DICT[dataset](known_args, pipeline_args)
 
 
 if __name__ == '__main__':
diff --git a/basic_pitch/dataset/guitarset.py b/basic_pitch/dataset/guitarset.py
@@ -20,7 +20,6 @@
 import os
 import os.path as op
 import random
-import sys
 import time
 from typing import List, Tuple, Optional
 
diff --git a/basic_pitch/dataset/slakh.py b/basic_pitch/dataset/slakh.py
@@ -19,7 +19,6 @@
 import logging
 import os
 import os.path as op
-import sys
 import time
 from typing import List, Tuple
 
diff --git a/basic_pitch/dataset/tf_example_deserialization.py b/basic_pitch/dataset/tf_example_deserialization.py
@@ -39,13 +39,13 @@
 
 
 def prepare_datasets(
-    datasets_base_path,
-    training_shuffle_buffer_size,
-    batch_size,
-    validation_steps,
+    datasets_base_path: str,
+    training_shuffle_buffer_size: int,
+    batch_size: int,
+    validation_steps: int,
     datasets_to_use: List[str],
     dataset_sampling_frequency: np.ndarray,
-):
+) -> tf.data.Dataset:
     """
     Return a training and a testing dataset.
 
@@ -177,7 +177,6 @@ def sample_datasets(
 
     ds_list = []
 
-
     file_generator, random_seed = transcription_file_generator(
         split,
         datasets,
@@ -213,7 +212,7 @@ def sample_datasets(
     choice_dataset = tf.data.Dataset.range(
         n_datasets
     ).repeat()  # this repeat is critical! if not, only n_dataset points will be sampled!!
-    return tf.data.experimental.choose_from_datasets(ds_list, choice_dataset)
+    return tf.data.Datasets.choose_from_datasets(ds_list, choice_dataset)
 
 
 def transcription_file_generator(
diff --git a/basic_pitch/dataset/tf_example_serialization.py b/basic_pitch/dataset/tf_example_serialization.py
@@ -87,7 +87,7 @@ def to_transcription_tfexample(
     contours_values: List[float],
     notes_onsets_shape: Tuple[int, int],
     contours_shape: Tuple[int, int],
-):
+) -> tf.train.Example:
     """
     - `file_id` string
     - `source` string  (e.g., "maestro")
diff --git a/basic_pitch/train.py b/basic_pitch/train.py
@@ -220,7 +220,8 @@ def console_entry_point():
 
     args = parser.parse_args()
     datasets_to_use = [
-        dataset.lower() for dataset in DATASET_SAMPLING_FREQUENCY.keys() if getattr(args, dataset.lower().replace("-", "_"))
+        dataset.lower() for dataset in DATASET_SAMPLING_FREQUENCY.keys()
+        if getattr(args, dataset.lower().replace("-", "_"))
     ]
     dataset_sampling_frequency = [
         frequency
diff --git a/setup.cfg b/setup.cfg
@@ -51,6 +51,8 @@ console_scripts =
     download-data = basic_pitch.dataset.download:main
 
 [options.extras_require]
+training = 
+    apache_beam
 test = 
 	coverage>=5.0.2
 	pytest>=6.1.1

Original file line number	Diff line number	Diff line change
`@@ -220,7 +220,8 @@ def console_entry_point():`
`220`	`220`
`221`	`221`	`args = parser.parse_args()`
`222`	`222`	`datasets_to_use = [`
`223`		`- dataset.lower() for dataset in DATASET_SAMPLING_FREQUENCY.keys() if getattr(args, dataset.lower().replace("-", "_"))`
	`223`	`+ dataset.lower() for dataset in DATASET_SAMPLING_FREQUENCY.keys()`
	`224`	`+ if getattr(args, dataset.lower().replace("-", "_"))`
`224`	`225`	`]`
`225`	`226`	`dataset_sampling_frequency = [`
`226`	`227`	`frequency`