Naive implementation #6

ivanvikhrev · 2020-09-27T07:48:32Z

Сконвертировал модель для аудио файлов длиной 10 мс и 20 мс. Стало известно несколько вещей:

При конвертации модели мы указываем размер входа, например, для 10 с мы указываем параметр --input_shape "(1, 1000, 161). Соответственно, минимальный размер входа для модели мы можем указать (1, 1, 161), что соответствует 10 мс.
С моделью для 10 мс не работают функции из features.py, похоже, в параметрах там указана минимальная длина аудиофайла и она соответствует 20 мс.
Для модели 20 мс попытался реализовать простое разбиение исходного аудиофайла на блоки с поочередной их обработкой и далее склейкой обратно в целостный аудиофайл. Однако возникла проблема: выход модели длиннее на 160 фреймов, чем исходный аудиофайл. Так, для аудиофайла длиной 5 с и частотой дискретизации (sample rate) 16 кГц мы получаем массив данных размером (5*16000, 1) или (80000, 1). При разбиении на блоки по 20 мс получаем 250 блоков по 320 фреймов. А на выходе после инференса этот же блок уже имеет размер 480.
При склеивании обратно "как есть" получаем замедленное аудио с плохим качеством. Если пытаться вырезать по 320 фреймов из начала, конца или середины страдает качество, но скорость получается нормальная.

ivanvikhrev · 2020-09-27T07:55:19Z

160 фреймов к выходу добавляется в любом случае, независимо от длины входа. Для модели на 10 секунд на вход подается массив (160000,1), а на выходе получаем (160160, 1)

FenixFly · 2020-10-01T12:14:58Z

speech_denoising.py

+    for i in range(nblocks):
+        out = denoiser.denoise(data[i*block_size:(i+1)*block_size, 0]).reshape(-1, 1)
+        print(out.shape)
+        res = np.concatenate((res, out[:out.shape[0]]))


Накладывание текущего кадра на предыдущий

if i > 0: print(i) tmpres = res[-160:] tmpres += out[:160] res[-160:] = tmpres res = np.concatenate((res, out[160:out.shape[0]])) else: res = np.concatenate((res, out[:out.shape[0]]))

add models for audio 10 ms and 20 ms durations

296b17d

FenixFly requested changes Oct 1, 2020

View reviewed changes

FenixFly added 3 commits October 2, 2020 19:32

Using of 1 second model

cd4645d

Add test audio

c20de9e

Second noise file

49cf095

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Naive implementation #6

Naive implementation #6

Uh oh!

ivanvikhrev commented Sep 27, 2020

Uh oh!

ivanvikhrev commented Sep 27, 2020

Uh oh!

FenixFly Oct 1, 2020

Uh oh!

Uh oh!

Naive implementation #6

Are you sure you want to change the base?

Naive implementation #6

Uh oh!

Conversation

ivanvikhrev commented Sep 27, 2020

Uh oh!

ivanvikhrev commented Sep 27, 2020

Uh oh!

FenixFly Oct 1, 2020

Choose a reason for hiding this comment

Uh oh!

Uh oh!