modify tutorials for audio data processing

vigo999 · vigo999 · commit 9f78dacdb420 · 2023-06-26T01:34:24.000+08:00
diff --git a/requirements-dev.txt b/requirements-dev.txt
@@ -1,3 +1,4 @@
+mindspore=2.0.0
 numpy>=1.17.0
 scipy>=1.6.0
 pyyaml>=5.3
diff --git a/requirements.txt b/requirements.txt
@@ -1,3 +1,4 @@
+mindspore=2.0.0
 numpy>=1.17.0
 scipy>=1.6.0
 pyyaml>=5.3
diff --git a/tutorials/audio_data_processing_with_mindaudio.ipynb b/tutorials/audio_data_processing_with_mindaudio.ipynb
@@ -103,15 +103,15 @@
    ],
    "source": [
     "import os\n",
-    "import mindaudio\n",
+    "import mindaudio.data.io as io\n",
     "import scipy.io\n",
     "\n",
     "# Get a multi-channel audio file from the tests/data directory.\n",
     "data_dir = os.path.join(os.path.dirname(scipy.io.__file__), \"tests\", \"data\")\n",
     "wav_fname = os.path.join(data_dir, \"test-44100Hz-2ch-32bit-float-be.wav\")\n",
     "\n",
     "# Load the .wav file contents.\n",
-    "audio, sr = mindaudio.read(wav_fname)\n",
+    "audio, sr = io.read(wav_fname)\n",
     "print(f\"number of channels = {audio.shape[1]}\")\n",
     "\n",
     "length = audio.shape[0] / sr\n",
@@ -146,14 +146,14 @@
    "outputs": [],
    "source": [
     "import numpy as np\n",
-    "import mindaudio\n",
+    "import mindaudio.data.io as io\n",
     "\n",
     "samplerate = 44100\n",
     "fs = 100\n",
     "t = np.linspace(0., 1., samplerate)\n",
     "amplitude = np.iinfo(np.int16).max\n",
     "data = amplitude * np.sin(2. * np.pi * fs * t)\n",
-    "mindaudio.write(\"example.wav\", data, samplerate)"
+    "io.write(\"example.wav\", data, samplerate)"
    ]
   },
   {
@@ -194,12 +194,13 @@
    ],
    "source": [
     "import numpy as np\n",
-    "import mindaudio\n",
+    "import mindaudio.data.io as io\n",
+    "import mindaudio.data.features as features\n",
     "\n",
-    "test_data, sr = mindaudio.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
+    "test_data, sr = io.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
     "# Carry out data feature extraction\n",
     "n_fft = 512\n",
-    "matrix = mindaudio.fbank(test_data, n_fft=n_fft)\n",
+    "matrix = features.fbank(test_data, n_fft=n_fft)\n",
     "data_shape = matrix.shape\n",
     "\n",
     "# Drawing display\n",
@@ -270,16 +271,17 @@
     }
    ],
    "source": [
-    "import mindaudio\n",
+    "import mindaudio.data.io as io\n",
+    "import mindaudio.data.filters as filters\n",
     "import matplotlib.pyplot as plt\n",
     "import numpy as np\n",
     "import IPython.display as ipd\n",
     "\n",
-    "audio, sr = mindaudio.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
+    "audio, sr = io.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
     "ipd.display(ipd.Audio(audio, rate=sr))\n",
     "\n",
     "cutoff_freq = 1000\n",
-    "out_waveform = mindaudio.low_pass_filter(audio, sr, cutoff_freq)\n",
+    "out_waveform = filters.low_pass_filter(audio, sr, cutoff_freq)\n",
     "ipd.display(ipd.Audio(out_waveform, rate=sr))"
    ]
   },
@@ -342,15 +344,16 @@
     }
    ],
    "source": [
-    "import mindaudio\n",
+    "import mindaudio.data.io as io\n",
+    "import mindaudio.data.augment as augment\n",
     "import IPython.display as ipd\n",
     "\n",
-    "samples, sr = mindaudio.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
+    "samples, sr = io.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
     "ipd.display(ipd.Audio(samples, rate=sr))\n",
     "background_list = [\"../tests/samples/ASR/BAC009S0002W0123.wav\"]\n",
     "\n",
     "# test add noise for 1d\n",
-    "noisy_wav = mindaudio.add_noise(samples, background_list, 3, 30, 1.0)\n",
+    "noisy_wav = augment.add_noise(samples, background_list, 3, 30, 1.0)\n",
     "# display\n",
     "ipd.display(ipd.Audio(noisy_wav, rate=sr))"
    ]
@@ -406,15 +409,16 @@
     }
    ],
    "source": [
-    "import mindaudio\n",
+    "import mindaudio.data.io as io\n",
+    "import mindaudio.data.augment as augment\n",
     "import IPython.display as ipd\n",
     "\n",
-    "samples, sr = mindaudio.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
-    "ipd.display(ipd.Audio(samples, rate=sr))\n",
+    "audio_data, sr = io.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
+    "ipd.display(ipd.Audio(audio_data, rate=sr))\n",
     "rir_list = [\"../tests/samples/rir/air_binaural_aula_carolina_0_1_1_90_3_16k.wav\"]\n",
     "\n",
     "# test add reverb for 1d\n",
-    "rir_wav = mindaudio.add_reverb(samples, rir_list, 1.0)\n",
+    "rir_wav = augment.add_reverb(audio_data, rir_list, 1.0)\n",
     "# display\n",
     "ipd.display(ipd.Audio(rir_wav, rate=sr))"
    ]
@@ -452,10 +456,10 @@
     }
    ],
    "source": [
-    "import mindaudio\n",
+    "import mindaudio.data.processing as processing\n",
     "\n",
     "waveform = np.random.random([1, 441000])\n",
-    "y_8k = mindaudio.resample(waveform, orig_freq=44100, new_freq=16000)\n",
+    "y_8k = processing.resample(waveform, orig_freq=44100, new_freq=16000)\n",
     "print(waveform.shape)\n",
     "print(y_8k.shape)"
    ]
@@ -511,15 +515,16 @@
     }
    ],
    "source": [
-    "import mindaudio\n",
+    "import mindaudio.data.io as io\n",
+    "import mindaudio.data.processing as processing\n",
     "\n",
-    "waveform, sr = mindaudio.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
-    "ipd.display(ipd.Audio(waveform, rate=sr))\n",
+    "audio_data, sr = io.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
+    "ipd.display(ipd.Audio(audio_data, rate=sr))\n",
     "\n",
     "offset_factor = 0.2\n",
     "duration_factor = 0.3\n",
     "# do clip\n",
-    "out_waveform = mindaudio.clip(waveform, offset_factor, duration_factor)\n",
+    "out_waveform = processing.clip(audio_data, offset_factor, duration_factor)\n",
     "ipd.display(ipd.Audio(out_waveform, rate=sr))"
    ]
   },
@@ -555,13 +560,14 @@
     }
    ],
    "source": [
-    "import mindaudio\n",
+    "import mindaudio.data.io as io\n",
+    "import mindaudio.data.spectrum as spectrum\n",
     "\n",
     "# Read audio file\n",
-    "test_data, sr = mindaudio.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
-    "# Carry out data feature extraction\n",
+    "test_data, sr = io.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
+    "# data feature extraction\n",
     "n_fft = 512\n",
-    "matrix = mindaudio.stft(test_data, n_fft=n_fft)\n",
+    "matrix = spectrum.stft(test_data, n_fft=n_fft)\n",
     "print(matrix.shape)"
    ]
   },
@@ -603,14 +609,15 @@
    "source": [
     "import numpy as np\n",
     "import matplotlib.pyplot as plt\n",
-    "import mindaudio\n",
+    "import mindaudio.data.io as io\n",
+    "import mindaudio.data.spectrum as spectrum\n",
     "\n",
     "# Read audio file\n",
-    "test_data, sr = mindaudio.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
-    "# Carry out data feature extraction\n",
+    "audio_data, sr = io.read(\"../tests/samples/ASR/BAC009S0002W0122.wav\")\n",
+    "# data feature extraction\n",
     "n_fft = 512\n",
-    "matrix = mindaudio.stft(test_data, n_fft=n_fft)\n",
-    "magnitude, _ = mindaudio.magphase(matrix, 1)\n",
+    "matrix = spectrum.stft(audio_data, n_fft=n_fft)\n",
+    "magnitude, _ = spectrum.magphase(matrix, 1)\n",
     "print(magnitude.shape)\n",
     "# Drawing display\n",
     "x = [i for i in range(0, int(n_fft/2*magnitude.shape[1]), int(n_fft/2))]\n",

Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,4 @@`
	`1`	`+mindspore=2.0.0`
`1`	`2`	`numpy>=1.17.0`
`2`	`3`	`scipy>=1.6.0`
`3`	`4`	`pyyaml>=5.3`