Deepfake голос. 3 урок. Голос из текста.

Blink · Сообщение **Blink** » 27 янв 2025, 16:51

В этом уроке мы будем работать с библиотекой rvc-tts-webui, которая представляет собой интерфейс для использования текстов в речь (Text-to-Speech, TTS) с помощью модели RVC (Real-time Voice Cloning).

Что такое rvc-tts-webui?
Это веб-интерфейс для работы с TTS-моделями, которые способны генерировать речь из текста в реальном времени. Библиотека использует модель голосового клонирования для создания высококачественного синтеза речи. Она включает в себя различные возможности для настроек и обработки голосов.

Шаг 1: установка
Если вы используете Windows, можете скачать python отсюда
Если вы используете Linux, установите python по инструкции из прошлого урока.
1. Установка rvc-tts-webui
Создадим новую папку, и откроем в ней консоль.
Чтобы открыть консоль в папке на windows, нужно прописать cmd в строке пути:

: image.png (8.57 КБ) 13064 просмотра

На Linux в папке нажмите правой кнопкой мыши и выберите пункт Open Terminal Here (Открыть терминал здесь)

Далее нужно поочередно вписать следующие команды:

Код: Выделить всё

git clone https://github.com/litagin02/rvc-tts-webui.git
cd rvc-tts-webui

# Download models
curl -L -O https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/hubert_base.pt
curl -L -O https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/rmvpe.pt

# Make virtual environment
python -m venv venv
# Activate venv (for Windows)
venv\Scripts\activate

# Install PyTorch manually if you want to use NVIDIA GPU (Windows)
# See https://pytorch.org/get-started/locally/ for more details
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# Install requirements
pip install -r requirements.txt

Далее для работы нужно загрузить хотя бы одну речевую модель, нужно поместить файлы .pth и .index модели в папку weights в следующем формате:

Код: Выделить всё

weights
├── model1
│   ├── my_model1.pth
│   └── my_index_file_for_model1.index
└── model2
    ├── my_model2.pth
    └── my_index_file_for_model2.index
...

Для запуска введите в консоли следующую команду:

Код: Выделить всё

python app.py

И у вас откроется графический интерфейс в браузере.

Настройка параметров:
Model: Выбор речевой модели.
Transpose: Изменение высоты голоса.
Pitch extraction method: Метод изменения высоты голоса, лучше использовать rmvpe.
Index rate и Protect: Настройки изменения голоса.
Edge-tts speaker: выбор базового голоса и языка.
Speech speed: Скорость речи.
Input Text: Текст который нужно сказать.

Заполните все параметры, и нажмите кнопку Convert.

Справа в двух окошках появятся сгенерированный голос (Сверху) и измененный с помощью голосовой модели (снизу).

: image.png (10.47 КБ) 13068 просмотров

Данные аудио можно сохранить, или изменить настройки изменения голоса и попробовать еще раз.