Deepfake голос. 3 урок. Голос из текста.
Deepfake голос. 3 урок. Голос из текста.
В этом уроке мы будем работать с библиотекой rvc-tts-webui, которая представляет собой интерфейс для использования текстов в речь (Text-to-Speech, TTS) с помощью модели RVC (Real-time Voice Cloning).
Что такое rvc-tts-webui?
Это веб-интерфейс для работы с TTS-моделями, которые способны генерировать речь из текста в реальном времени. Библиотека использует модель голосового клонирования для создания высококачественного синтеза речи. Она включает в себя различные возможности для настроек и обработки голосов.
Шаг 1: установка
Если вы используете Windows, можете скачать python отсюда
Если вы используете Linux, установите python по инструкции из прошлого урока.
1. Установка rvc-tts-webui
Создадим новую папку, и откроем в ней консоль.
Чтобы открыть консоль в папке на windows, нужно прописать cmd в строке пути:
На Linux в папке нажмите правой кнопкой мыши и выберите пункт Open Terminal Here (Открыть терминал здесь)
Далее нужно поочередно вписать следующие команды:
Далее для работы нужно загрузить хотя бы одну речевую модель, нужно поместить файлы .pth и .index модели в папку weights в следующем формате:
Для запуска введите в консоли следующую команду:
И у вас откроется графический интерфейс в браузере.
Настройка параметров:
Model: Выбор речевой модели.
Transpose: Изменение высоты голоса.
Pitch extraction method: Метод изменения высоты голоса, лучше использовать rmvpe.
Index rate и Protect: Настройки изменения голоса.
Edge-tts speaker: выбор базового голоса и языка.
Speech speed: Скорость речи.
Input Text: Текст который нужно сказать.
Заполните все параметры, и нажмите кнопку Convert.
Справа в двух окошках появятся сгенерированный голос (Сверху) и измененный с помощью голосовой модели (снизу). Данные аудио можно сохранить, или изменить настройки изменения голоса и попробовать еще раз.
Что такое rvc-tts-webui?
Это веб-интерфейс для работы с TTS-моделями, которые способны генерировать речь из текста в реальном времени. Библиотека использует модель голосового клонирования для создания высококачественного синтеза речи. Она включает в себя различные возможности для настроек и обработки голосов.
Шаг 1: установка
Если вы используете Windows, можете скачать python отсюда
Если вы используете Linux, установите python по инструкции из прошлого урока.
1. Установка rvc-tts-webui
Создадим новую папку, и откроем в ней консоль.
Чтобы открыть консоль в папке на windows, нужно прописать cmd в строке пути:
На Linux в папке нажмите правой кнопкой мыши и выберите пункт Open Terminal Here (Открыть терминал здесь)
Далее нужно поочередно вписать следующие команды:
Код: Выделить всё
git clone https://github.com/litagin02/rvc-tts-webui.git
cd rvc-tts-webui
# Download models
curl -L -O https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/hubert_base.pt
curl -L -O https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/rmvpe.pt
# Make virtual environment
python -m venv venv
# Activate venv (for Windows)
venv\Scripts\activate
# Install PyTorch manually if you want to use NVIDIA GPU (Windows)
# See https://pytorch.org/get-started/locally/ for more details
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# Install requirements
pip install -r requirements.txt
Код: Выделить всё
weights
├── model1
│ ├── my_model1.pth
│ └── my_index_file_for_model1.index
└── model2
├── my_model2.pth
└── my_index_file_for_model2.index
...
Код: Выделить всё
python app.py
Настройка параметров:
Model: Выбор речевой модели.
Transpose: Изменение высоты голоса.
Pitch extraction method: Метод изменения высоты голоса, лучше использовать rmvpe.
Index rate и Protect: Настройки изменения голоса.
Edge-tts speaker: выбор базового голоса и языка.
Speech speed: Скорость речи.
Input Text: Текст который нужно сказать.
Заполните все параметры, и нажмите кнопку Convert.
Справа в двух окошках появятся сгенерированный голос (Сверху) и измененный с помощью голосовой модели (снизу). Данные аудио можно сохранить, или изменить настройки изменения голоса и попробовать еще раз.