Skip to content

音频Reference裁切后与文本Refernce不同步 #146

@KangZENG50025543

Description

@KangZENG50025543

在分析 F5-TTS 预处理流程时,发现一个影响训练质量的严重问题。

当前行为:

  • 当参考音频超过12秒时,会被裁剪到前12秒或更短
  • 但对应的参考文本保持完整不变
  • 导致模型学习到错误的映射关系:短音频 ↔ 长文本

这会导致:

  • ❌注意力机制混乱 (生成的内容出现字段反复:Generate text:“我是守岸人,您的助理”——>Audio:“您的助理,我是守岸人,您的助理,守岸人,助理”)
  • ❌时长预测失真 (生成的时长非常短,语句念得非常快)
  • ❌韵律学习错误(停顿完全错误,彻底忽略标点)

问题根因:
在文件 'src/f5_tts/infer/utils_infer.py' 的 'preprocess_ref_audio_text()' 函数中:

# audio cutting:
aseg = aseg[:12000]  # Or cutting based on silence

# But text remains the same:
return ref_audio, ref_text  # ❌No cutting text!

修复建议:
加上与之对应的文本智能裁剪,比如根据时长,标点等对应算法进行正确的裁剪。

utils_infer_changed_version.py

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions