新闻

新闻资讯

联系我们

联系人:陈先生

手机:13888889999

电话:020-88888888

邮箱:youweb@126.com

地址:广东省广州市番禺经济开发区

常见问题

AI翻唱变声软件DDSP-SVC教程,低配电脑可用,so-vits-svc替代品

作者:佚名 发布时间:2023-11-27 10:33:58

前几天给大家介绍了一个非常强大的翻唱歌曲软件so-vits-svc,文章链接:《AI孙燕姿:人人都是翻唱高手,so-vits-svc4.0一键整合包下载及本地安装部署教程》,但是那个软件对电脑配置要求比较高,一般人显卡达不到要求,训练效果可能不是很理想。现在给大家介绍另外一个AI变声软件DDSP-SVC,这个软件对电脑配置要求要低一些,但是转换效果也会比so-vits-svc差了点,但是软件还是在优化升级中,目前合成音频效果也是不错的。DDSP-SVC github项目地址:https://github.com/yxlllc/DDSP-SVC,下面给大家具体演示一下操作步骤。

github上有安装使用步骤,大佬可以参考步骤安装使用,我们这里使用羽毛布団大佬制作的整合包,方便新手小白使用。百度网盘下载链接: https://pan.baidu.com/s/1KBGJP4F1i5OthGCoAohz9Q?pwd=35ps 提取码: 35ps

首先准备声音素材,最好是在安静的环境中录制的纯人声高清音频素材,如果你是用来转换歌曲的话,你录制的声音最好有高音和低音部分,这样转换出来的歌声效果更好,不然的话高音部分可能会沙哑变音,如果你录制的声音不够干净,可以使用UVR5这个软件来提取干净人声。这个软件在网盘里也有。声音素材总时长建议在1个小时以上。

打开UVR5软件,如上图所示,input里选择待提取纯人声的音频文件,output选择输出文件夹,下面选中GPU Conversion 和vocals only只保留人声,然后点击按钮start processing提取即可。单个音频文件不要太大,时长最好20分钟以内,否则软件可能会因显存不足报错。将所有纯人声音频文件提取完毕后待用。

将DDSP-SVC软件下载到电脑上解压,运行【启动WebUI.bat】文件启动webui页面,选择智能音频切片选项卡,原始音频文件夹里输入准备好的干净人声音频文件所在的文件夹,文件夹路径复制进来,然后点击按钮【加载原始音频】,看看是不是提示加载成功,音频列表里的音频文件和你文件夹里的音频文件是否一致,然后选择分割后的音频输入文件夹,点击【开始切片】开始分割音频。输出信息成功即代表分割完成。

音频分割完成之后,将分割好的音频片段复制到data rain\audio文件夹下,再点击【一键划分数据集】按钮,选出验证集音频文件

下面是数据预处理,选择编码器和f0提取算法,页面上有明确的说明,可以根据自己的需求选择,然后点击【数据预处理】按钮,这一步根据选择算法不同,文件数量不同消耗时间也不一定。等到进度条100%,没有报错的话就是预处理成功了。

下面是设置训练参数,总共需要训练两个模型一个是DDSP模型另一个是扩散模型,下面大部分参数保持默认即可,如果你的显卡显存比较低比如2G,可以在缓存数据这里选择CPU,同时batch_size也要适当降低,大显存可以不用修改。扩散模型配置里训练数据类型,如果你的显卡是20系列或更高,可以选择fp16或bf16,可以加快训练速度,如果训练时提示RuntimeError: Current CUDA Device does not support bfloat16. Please switch dtype to float16,就是不支持bf16,可以选择前面的fp16,如果还是不支持就再朝前选择fp32,注意更换选择训练数据类型之后要点击按钮【写入配置文件】,然后再去点击下面的训练模型按钮,都设置完成后点击按钮写入配置文件。

下面选择从头开始训练,然后点击训练DDSP模型,然后系统就会打开终端窗口输出训练信息,如果不想训练了的话可以按住ctrl+c终止训练,DDSP模型和扩散模型是分开独立训练的,

你可以打开tendorboard查看训练状态,选中正在训练的模型点击打开tensorboard按钮,等到终端输入如下图http://localhost:6006/信息的时候将网址复制到浏览器地址栏打开就可以。

训练步数越大越好,在训练过程中终端会输出loss值,当值很低不再变的时候就可以停止训练了,可以转去训练下一个模型。如果停止后想接着训练,可以选择继续上一次的训练进度接着训练。

两个模型都训练完成之后,切换到推理选项卡,点击刷新选项,选择模型训练步数最大的模型文件。

点击上传待转换的纯人声音频文件,其它设置保持默认即可,点击下面的音频转换按钮开始转换音频。如果转换后的音频声音嘶哑或是声音异常,可能是模型里没有高音待转换的音频里面有高音无法达到转换效果,或是f0提取算法问题,你可以换个算法。声音转换完成后可以播放试听或是点击下载保存转换后的音频文件。

在终端里面输入workenv\python.exe gui_diff.py运行,可以开启实时声音转换功能,选择想用的模型,选择输入输出设备,点击开始音频转换按钮即可。

注意请训练自己的声音,如果训练别人的声音请获得授权,仅限个人研究学习及娱乐使用,切勿违规使用该软件。

原文:https://dyss.top/897

相关标签:

新闻资讯

相关产品

在线客服
联系方式

热线电话

020-88888888

上班时间

周一到周五

公司电话

13888889999

二维码
线

平台注册入口