内容导航
1. GPT-SoVITS-WebUI简介
- GPT-SoVITS是一个开源的声音克隆项目,该语音合成工具结合了GPT (Generative Pre-trained Transformer)模型和SoVITS(Speech-to-Video Voice Transformation System)变声器技术,仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换(TTS)。
- 该工具特别适用于需要快速生成特定人声的场景,可以帮助用户在没有或只有少量目标说话人语音样本的情况下,训练出能够模仿该说话人声音(包括情感、音色、语速)的模型。
- 和stable diffusion webui一样, GPT-SoVITS-WebUI也具有可视化的web界面,方便普通用户使用。
2. 原始声音/合成声音对比
- 卡莎
- 三体
链接:https://pan.baidu.com/s/1abzoWCe0B0e6CDINmMzUuQ?pwd=bzyy
提取码:bzyy
3. GPT-SoVITS-WebUI安装
- 在 Mac 上使用 GPU 训练的模型效果显著低于其他设备训练的模型,所以作者不建议使用CPU进行训练。
- 这里介绍windows系统最简单方便的方式,直接百度云下载打包好的文件即可。
4. GPT-SoVITS-WebUI详细使用教程
- 下载解压以后,双击go-webui.bat运行,等待数秒后会自动打开浏览器, 如果没有就手动复制链接 http://0.0.0.0:9873 到浏览器地址打开。
5. 0-前置数据集获取工具
6. 0a-UVR5人声伴奏分离&去混响去延迟工具
- 勾选“是否开启UVR5-WebUI”
- 等待数秒后会自动打开新页面,按图片标记进行操作
- 需注意的是,文件名和路径不能有中文
- 设置好以后, 点击转换按钮。
- 等待数秒后,看到Succes字样,表明成功,此时可以关掉当前页面,进入下一个操作。
7. 0b-语音切分工具
- 查看结果
- 当前步骤结束,进入下一步。
8. 0c-中文批量离线ASR工具
9. 0d-语音文本校对标注工具
- 选中“是否开启打标WebUI”
- 稍等片刻会自动打开新页面
- 完成后可关闭页面, 进入下一步。
10. 1-GPT-SoVITS-TTS
11. 1A-训练集格式化工具
12. 1Aabc-训练集格式化一键三连
13. 1B-微调训练
14. 开启SoVITS训练
15. 开启GPT训练
- 等上一步完成后, 再点击“开启GPT训练”。
- 怎么判断上一步是否完成?
- 全部参数使用默认即可, 点击“开启GPT训练”
16. 合成声音/克隆声音