GPT-SoVITS-WebUI, 超强声音创作的AI应用详细教程.

Silicon Gamer

10/06/2024

 

1. GPT-SoVITS-WebUI简介

  1. GPT-SoVITS是一个开源的声音克隆项目,该语音合成工具结合了GPT (Generative Pre-trained Transformer)模型和SoVITS(Speech-to-Video Voice Transformation System)变声器技术,仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换(TTS)。
  2. 该工具特别适用于需要快速生成特定人声的场景,可以帮助用户在没有或只有少量目标说话人语音样本的情况下,训练出能够模仿该说话人声音(包括情感、音色、语速)的模型。
  3. 和stable diffusion webui一样, GPT-SoVITS-WebUI也具有可视化的web界面,方便普通用户使用。

2. 原始声音/合成声音对比

  • 卡莎
  • 三体

链接:https://pan.baidu.com/s/1abzoWCe0B0e6CDINmMzUuQ?pwd=bzyy
提取码:bzyy

3. GPT-SoVITS-WebUI安装

  1. 在 Mac 上使用 GPU 训练的模型效果显著低于其他设备训练的模型,所以作者不建议使用CPU进行训练。
  2. 这里介绍windows系统最简单方便的方式,直接百度云下载打包好的文件即可。

硅基玩家 此处内容被隐藏,请输入验证码查看内容。
验证码:
请关注微信公众号,回复“硅基玩家”,获取验证码。在微信里搜索“ 硅基玩家”或者“silicongamer”或者微信扫描右侧二维码都可以关注本站微信公众号。

4. GPT-SoVITS-WebUI详细使用教程

  • 下载解压以后,双击go-webui.bat运行,等待数秒后会自动打开浏览器, 如果没有就手动复制链接 http://0.0.0.0:9873 到浏览器地址打开。

5. 0-前置数据集获取工具

6. 0a-UVR5人声伴奏分离&去混响去延迟工具

  1. 勾选“是否开启UVR5-WebUI”
  2. 等待数秒后会自动打开新页面,按图片标记进行操作
    1. 需注意的是,文件名和路径不能有中文
    2. 设置好以后, 点击转换按钮。
  3. 等待数秒后,看到Succes字样,表明成功,此时可以关掉当前页面,进入下一个操作。

7. 0b-语音切分工具

  1. 查看结果
  2. 当前步骤结束,进入下一步。

8. 0c-中文批量离线ASR工具

 

9. 0d-语音文本校对标注工具

  1. 选中“是否开启打标WebUI”
  2. 稍等片刻会自动打开新页面
  3. 完成后可关闭页面, 进入下一步。

 

10. 1-GPT-SoVITS-TTS

11. 1A-训练集格式化工具

12. 1Aabc-训练集格式化一键三连

 

 

 

13. 1B-微调训练

14. 开启SoVITS训练

15. 开启GPT训练

  1. 等上一步完成后, 再点击“开启GPT训练”。
  2. 怎么判断上一步是否完成?
  3. 全部参数使用默认即可, 点击“开启GPT训练”

 

16. 合成声音/克隆声音

 

 

发表评论