-
Notifications
You must be signed in to change notification settings - Fork 318
Open
Description
在分析 F5-TTS 预处理流程时,发现一个影响训练质量的严重问题。
当前行为:
- 当参考音频超过12秒时,会被裁剪到前12秒或更短
- 但对应的参考文本保持完整不变
- 导致模型学习到错误的映射关系:
短音频 ↔ 长文本
这会导致:
- ❌注意力机制混乱 (生成的内容出现字段反复:Generate text:“我是守岸人,您的助理”——>Audio:“您的助理,我是守岸人,您的助理,守岸人,助理”)
- ❌时长预测失真 (生成的时长非常短,语句念得非常快)
- ❌韵律学习错误(停顿完全错误,彻底忽略标点)
问题根因:
在文件 'src/f5_tts/infer/utils_infer.py' 的 'preprocess_ref_audio_text()' 函数中:
# audio cutting:
aseg = aseg[:12000] # Or cutting based on silence
# But text remains the same:
return ref_audio, ref_text # ❌No cutting text!修复建议:
加上与之对应的文本智能裁剪,比如根据时长,标点等对应算法进行正确的裁剪。
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels