音频Reference裁切后与文本Refernce不同步

在分析 F5-TTS 预处理流程时，发现一个影响训练质量的严重问题。


当前行为：
- 当参考音频超过12秒时，会被裁剪到前12秒或更短
- 但对应的参考文本保持完整不变
- 导致模型学习到错误的映射关系：`短音频 ↔ 长文本`


这会导致：


- ❌注意力机制混乱 （生成的内容出现字段反复：Generate text:“我是守岸人，您的助理”——>Audio:“您的助理，我是守岸人，您的助理，守岸人，助理”）
- ❌时长预测失真  （生成的时长非常短，语句念得非常快）
- ❌韵律学习错误（停顿完全错误，彻底忽略标点）


问题根因：
在文件 'src/f5_tts/infer/utils_infer.py' 的 'preprocess_ref_audio_text()' 函数中：
```python
# audio cutting：
aseg = aseg[:12000]  # Or cutting based on silence

# But text remains the same：
return ref_audio, ref_text  # ❌No cutting text！
```

修复建议：
加上与之对应的文本智能裁剪，比如根据时长，标点等对应算法进行正确的裁剪。

[utils_infer_changed_version.py](https://github.com/user-attachments/files/23309762/utils_infer_changed_version.py)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

音频Reference裁切后与文本Refernce不同步 #146

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

音频Reference裁切后与文本Refernce不同步 #146

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions