- 安裝環境:
- 資料前處理:
- 先將原始音檔 (
.wav
) 分別放進資料夾- 訓練集:
dataset\training\training_voice_data
- public測試集:
dataset\test\test_data_public
- private測試集:
dataset\test\test_data_private
- 訓練集:
- 分別使用以下程式來生成各自的 Numpy 壓縮檔案 (
.npz
),該檔案會直接包含.wav
的訊號與.csv
內對應的資訊- 訓練集:
processing\training-make_npz.ipynb
- public測試集:
processing\test_public-make_npz.ipynb
- private測試集:
processing\test_private-make_npz.ipynb
- 訓練集:
- 分別使用以下程式對剛剛的
.npz
裡的訊號進行快速傅立葉轉換 (FFT),並另存檔案- 訓練集:
processing\training-fft.ipynb
- public測試集:
processing\test_public-fft.ipynb
- private測試集:
processing\test_private-fft.ipynb
- 訓練集:
- (選用) 分別使用以下程式來生成記錄每個
.npz
檔名的.json
檔案,以方便後續抓取檔案,
其中訓練集
會隨機抽選訓練與測試集,如欲重新抽選檔案可修改程式內的種子碼
來重新抽選- 訓練集:
processing\training-make_data_list.ipynb
- public測試集:
processing\test_public-make_data_list.ipynb
- private測試集:
processing\test_private-make_data_list.ipynb
- 訓練集:
- 先將原始音檔 (
- 訓練方式:
- 開啟
experiments\traininig.ipynb
- 從第
2
個儲存格開始執行程式,至第7
格為止 - 第
8
格可設定模型的名稱,此功能是用於重新訓練
的,如果要把已經訓練好的模型載入回來,就不需要執行這格 - 第
9
格用於載入已訓練的模型
,需手動修改模型名稱,預設為我們訓練好的模型m202_MultiOutput_20230518_114418
- 執行過第
8
或第9
格以後,一直往下執行至第15
格為止 - 第
16
格可用來重新訓練
模型,第17
格為繼續訓練
模型 - 第
18
格用來定義繪製loss
與UAR
曲線的函式 - 如果為重新訓練模型,執行第
19
格可看到曲線;如果是繼續訓練的模型,則要執行第20
格 - 從第
21
格一直執行至第25
格為止,可從第25
格的輸出看到每個保存的模型在訓練與測試集中,三個輸出對應的acc
與UAR
- 第
26
格用於讀回剛剛測試的結果,節省以後還要重跑結果的時間 - 第
27~29
格用來觀察各個模型在訓練與測試集中,三個輸出對應的混淆矩陣
以及其他數據,
預設要觀察的模型為各個輸出在訓練過程中獲得最高UAR
的模型best_uar-0
、best_uar-1
與best_uar-2
- 第
30
格用來查看tensorboard
所記錄的資訊
- 開啟
- 測試方式:
- 開啟
experiments\test.ipynb
- 從第
2
個儲存格開始執行程式,至第6
格為止 - 在第
7
格設定要測試的模型名稱,預設為我們訓練好的模型m202_MultiOutput_20230518_114418
- 從第
8
格一直執行到第11
格為止 - 第
12
格可設定要用於測試的模型
以及模型的輸出位置
,我們設定為best_uar-0
以及第0
個輸出位置
- 開啟