llm+flow微调 #1067

Sunnycl · 2025-03-12T08:15:01Z

训练数据集720条，测试集80条，共2.5h左右，训练参数使用的是默认参数，训练了30轮看曲线，发现过拟合很严重

可否提供一些训练建议，另外选取了epoch1和epoch22的参数进行生成，用zeroshot方法可以正常生成（且音色相似度也会提高），用sft方法则会出现长间断的空白，声音也很奇怪

aluminumbox · 2025-03-13T01:43:32Z

sft是指针对单个说话人训练，需要准备一个人音频1h以上

Sunnycl · 2025-03-13T04:00:38Z

sft是指针对单个说话人训练，需要准备一个人音频1h以上

2.5h左右音频是单个人的，来源是B站易中天演讲，人耳听音频质量OK

Provide feedback