This article was last updated on <span id="expire-date"></span> days ago, the information described in the article may be outdated.

GPT-SoVITS 小实验

Reference

Project

So-VITS-SVC 4.1: 支持声音克隆需要半小时以上的素材训练.
GPT-SoVITS: 花儿不哭, 声音克隆歌曲翻唱文本转语音, 一分钟以上素材. 训练几分钟.
RVC: 花儿不哭, 实时语音, 半小时素材几小时训练

alt text

Training Steps

训练 Sovits 模型:

低轮次准确, 高轮次感情会比较丰富, 但容易出现声音泄露. 8伦
batch_site 设置为显存的一半.
10分钟以内, 参数全部默认, 30分钟到一小时,调大训练轮速.
10分钟学习率为默认 0.4, 30分钟以上调到 0.3.

SoVITS模型轮数可以设置的高一点,反正训练的很快.GPT模型轮数千万不能高于20(一般情况下)建议设置10.然后先点开启SoVITS训练,训练完后再点开启GPT训练,不可以一起训练(除非你有两张卡)!如果中途中断了,直接再点开始训练就好了,会从最近的保存点开始训练.

GPT 模型:

gpt可以适当把轮数调成 15, 10-15 效果比较好. 最大 50
gpt轮次越高感情越丰富, 轮次越低越准确.
Dpo训练: 如果你的显卡大于12g,且数据集质量较好,且愿意等待漫长的训练时间,那么可以开启dpo训练.否则请不要开启.下面是切片长度为10s时实测的不同显存的gpt训练最大batch_size.如果切片更长、数据集更大的话要适当减少.

推理 Steps

TOP-K 越低越准确,但缺少变化和多样性.比如故事讲述类,可调高这个值追求多样性;新闻类就要低一些,追求准确连贯;
TOP-P 默认为1,假如调到0.9,相当于生成时只要概率大于90%就可能被选中,因此,越低随机性越大,越高准确性和相关性也越大.
temperature :就像炒菜时的火候,大了容易糊,小了炒不熟.一般都要保持在0.9-1之间.

以上值具体多少合适只能根据实际情况亲自尝试,俗称”炼丹”

UVR5 (Ultra Voice Remover 5)

先用HP2模型处理一遍(提取人声),然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive(去混响),输出格式选wav.输出的文件默认在GPT-SoVITS-beta\GPT-SoVITS-beta\output\uvr5_opt这个文件夹下,建议不要改输出路径,到时候找不到文件谁也帮不了你.处理完的音频(vocal)的是人声,(instrument)是伴奏,(No Reverb)的没混响的,(Reverb)的是混响.(vocal)(No Reverb)才是要用的文件,其他都可以删除.结束后记得到WebUI关闭UVR5节省显存.
如果没有成功输出,报错了.那么推荐使用下面一种方法——UVR5客户端.(✅可能兼容性有问题,但是效果是和UVR5对齐的,不要瞎黑内置工具效果有问题)

Author: WhaleFall

Permalink: https://www.whaleluo.top/artificialintelligence/gpt-sovits-experiment/

文章默认使用 CC BY-NC-SA 4.0 协议进行许可，使用时请注意遵守协议。

updated at 2023-09-19

# AI # 人工智能 # GPT-SoVITS

GPT-SoVITS 小实验

GPT-SoVITS 小实验

Reference

Project

Training Steps

推理 Steps

UVR5 (Ultra Voice Remover 5)

Comments