This article was last updated on <span id="expire-date"></span> days ago, the information described in the article may be outdated.
GPT-SoVITS 小实验
Reference
Project
- So-VITS-SVC 4.1: 支持声音克隆 需要半小时以上的素材训练.
- GPT-SoVITS: 花儿不哭, 声音克隆 歌曲翻唱 文本转语音, 一分钟以上素材. 训练几分钟.
- RVC: 花儿不哭, 实时语音, 半小时素材几小时训练
Training Steps
训练 Sovits 模型:
- 低轮次准确, 高轮次感情会比较丰富, 但容易出现声音泄露. 8伦
batch_site
设置为显存的一半.- 10分钟以内, 参数全部默认, 30分钟到一小时,调大训练轮速.
- 10分钟学习率为默认 0.4, 30分钟以上调到 0.3.
SoVITS模型轮数可以设置的高一点,反正训练的很快.GPT模型轮数千万不能高于20(一般情况下)建议设置10.然后先点开启SoVITS训练,训练完后再点开启GPT训练,不可以一起训练(除非你有两张卡)!如果中途中断了,直接再点开始训练就好了,会从最近的保存点开始训练.
GPT 模型:
- gpt可以适当把轮数调成 15, 10-15 效果比较好. 最大 50
- gpt轮次越高感情越丰富, 轮次越低越准确.
- Dpo训练: 如果你的显卡大于12g,且数据集质量较好,且愿意等待漫长的训练时间,那么可以开启dpo训练.否则请不要开启.下面是切片长度为10s时实测的不同显存的gpt训练最大batch_size.如果切片更长、数据集更大的话要适当减少.
推理 Steps
TOP-K
越低越准确,但缺少变化和多样性.比如故事讲述类,可调高这个值追求多样性;新闻类就要低一些,追求准确连贯;TOP-P
默认为1,假如调到0.9,相当于生成时只要概率大于90%就可能被选中,因此,越低随机性越大,越高准确性和相关性也越大.temperature
:就像炒菜时的火候,大了容易糊,小了炒不熟.一般都要保持在0.9-1之间.
以上值具体多少合适只能根据实际情况亲自尝试,俗称”炼丹”
UVR5 (Ultra Voice Remover 5)
先用HP2模型处理一遍(提取人声),然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive(去混响),输出格式选wav.输出的文件默认在GPT-SoVITS-beta\GPT-SoVITS-beta\output\uvr5_opt这个文件夹下,建议不要改输出路径,到时候找不到文件谁也帮不了你.处理完的音频(vocal)的是人声,(instrument)是伴奏,(No Reverb)的没混响的,(Reverb)的是混响.(vocal)(No Reverb)才是要用的文件,其他都可以删除.结束后记得到WebUI关闭UVR5节省显存.
如果没有成功输出,报错了.那么推荐使用下面一种方法——UVR5客户端.(✅可能兼容性有问题,但是效果是和UVR5对齐的,不要瞎黑内置工具效果有问题)
Author: WhaleFall
Permalink: https://www.whaleluo.top/artificialintelligence/gpt-sovits-experiment/
文章默认使用 CC BY-NC-SA 4.0 协议进行许可,使用时请注意遵守协议。
Comments