Проект для синтеза речи с использованием модели fish-speech/xtts. Позволяет преобразовывать текст в речи с клонированием голоса.
- Клоинрование голоса из WAV-файла
- Поддержка русского языка
- Высокое качество синтеза
- Простой API
- Python 3.11 - 3.11.9
- Библиотека TTS
- Образец голоса (WAV, 16kHz, moho)
- Минимум 4GB RAM
- Клонируйте проект:
git clone git@github.com:5ekastanx/Voice-Synthesis.git cd Voice-Synthesis
Если у вас установлена другая версия Python, выполните следующие шаги:
-
Деактивируйте текущее виртуальное окружение (если есть):
deactivate
-
Активируйте окружение:
new_venv/bin/activate
-
Установите TTS:
pip install TTS
Voice-Synthesis/
├── main.py # Основной скрипт
├── voice_samples/ # Образцы голоса
│ └── aliya.wav # Пример образца
└── output/ # Выходные файлы
└── output.wav
-
Поместите WAV-файл с образцом голоса в
voice_samples/
-
Запустите синтез:
text = "Ваш текст для синтеза" synthesize( text=text, speaker_wav=speaker_wav )
-
Запустите скрипт:
python main.py
- CUDA out of memory: Уменьшите размер текста
- Искажение голоса: Проверьте частоту дискретизации (16kHz)
- FileNotFoundError: Проверьте пути к файлам