胡桃讲编程:麻宫雅典娜 15 RVCv2 第二代(R2)完整开源发布文档
作者龙沅可温馨提示本项目为非官方同人二创作品全程秉持公益开源原则无任何商业运营行为。请所有使用者严格遵守国家法律法规与开源协议合理运用本套开源模型与技术资源坚决杜绝非法用途与违规使用行为。本模型原 IP 版权归 SNK 所有仅用于技术交流、个人学习与非盈利同人创作。一、项目整体介绍与发布信息随着 AI 语音合成技术不断普及RVC 凭借轻量化、易上手、音色还原度出色等优势成为广大音频爱好者、技术玩家进行语音转换、歌声合成的主流工具。但不少入门用户受限于老旧显卡、小显存设备难以流畅运行高精度 RVC 模型。为此柴框云智算・低配卡 RVC 公益开源项目持续深耕低配置设备适配领域本次正式推出麻宫雅典娜 15 RVCv2 第二代R2国语声库该版本是在初代麻宫雅典娜 RVCv2 轻量模型的基础上全面迭代优化而来由龙洛工作室主导完成模型训练、参数调优与兼容性适配工作核心目标是让 4GB 显存及以下的低配电脑、老旧显卡甚至纯 CPU 设备都能稳定、流畅地使用高精度 AI 声库。本版本定位为公益开源声库面向全体技术爱好者免费开放下载与使用兼顾音色品质、运行稳定性与多平台适配能力同时优化了推理参数与算法逻辑进一步降低硬件门槛。以下为项目完整配套文件、下载链接与基础信息说明项目全称柴云智算 - 虚拟歌手・麻宫雅典娜 15R2 国语声库公益开源版 RVCv2 第二代开源下载链接https://115cdn.com/s/swshwg73nam?passwordqe46全套配套文件清单核心模型权重Athena Asamiya15R2.pth原始权重文件G_500.pth特征索引文件Athena Asamiya15R2.index原始索引文件added_IVF145_Flat_nprobe_1_Athena15R2_v2.index底层配置文件config.json配套文档麻宫雅典娜 15R2 - 使用说明书.txt版权声明拳皇 15 及麻宫雅典娜 IP 版权归属 SNK本模型为非商用公益二创成果仅用于技术交流、个人娱乐与非盈利创作不涉及任何商业授权与商业变现。二、版本迭代亮点与声库定位相较于初代 GTX 1050 Ti 本地训练的轻量模型本次 R2 第二代版本在算法、算力、兼容性、运行效率四大维度完成全面升级针对性解决低配设备卡顿、音色断层、平台适配单一等问题。两者详细对比信息如下表所示表格优化方向初代版本R2 第二代版本推理采样率40kHz主推 24kHz大幅降低硬件负载低配设备延迟更低音高提取算法pm首相算法升级为主流 RMVPE 算法新增 MVPE_GPU 预留算法音准表现更优秀平台适配范围仅支持主流 RVC 版本全系列 RVC 版本兼容新增流明平台接入能力使用场景更广训练硬件环境GTX 1050 Ti 本地训练RTX 4090 云 RVC AutuDL 云端联合训练音色精度与细节还原度显著提升运行模式兼容仅支持 GPU 推理CPU/GPU 双端通用完美适配 4GB 及以下老旧显卡无硬件限制检索特征参数无固定配比音色一致性较差固定检索特征占比 0.78全程音色统一避免转换失真在声线风格与创作适配层面本声库高度还原《拳皇 15》中麻宫雅典娜标志性的清亮少女音经过多轮调优后中高音区稳定性大幅增强气声过渡自然人声咬字清晰饱满。曲风适配范围十分广泛可应用于 ACG 内容创作、游戏同人配音、热血流行翻唱、治愈抒情歌曲、国风音乐以及轻摇滚等场景是低配设备用户开展非商用语音合成、歌声转换、同人配音的优质选择。三、全套参数明细训练 推理参数是保障模型稳定运行、音色正常输出的核心本章节分为底层配置、训练参数、推理参数三部分所有参数均经过实测验证非专业开发者请勿随意修改。一全局训练配置 config.json该配置文件定义了模型网络结构、音频参数、训练规则等底层逻辑直接决定模型基础性能部署与使用过程中建议保持默认设置。json{ train: { log_interval: 200, seed: 1234, epochs: 20000, learning_rate: 1e-4, betas: [0.8, 0.99], eps: 1e-9, batch_size: 4, fp16_run: true, lr_decay: 0.999875, segment_size: 12800, init_lr_ratio: 1, warmup_epochs: 0, c_mel: 45, c_kl: 1.0 }, data: { max_wav_value: 32768.0, sampling_rate: 40000, filter_length: 2048, hop_length: 400, win_length: 2048, n_mel_channels: 125, mel_fmin: 0.0, mel_fmax: null }, model: { inter_channels: 192, hidden_channels: 192, filter_channels: 768, n_heads: 2, n_layers: 6, kernel_size: 3, p_dropout: 0, resblock: 1, resblock_kernel_sizes: [3,7,11], resblock_dilation_sizes: [[1,3,5], [1,3,5], [1,3,5]], upsample_rates: [10,10,2,2], upsample_initial_channel: 512, upsample_kernel_sizes: [16,16,4,4], use_spectral_norm: false, gin_channels: 256, spk_embed_dim: 109 } }二核心训练参数本模型全程从零训练未加载任何预训练底模训练数据与硬件参数如下基础标识实验名Athena Asamiya15R2RVC v2 版本单人模型说话人 ID 固定为 0音高指导功能默认开启训练规则原生采样率 40kHz总计训练 100 轮每 50 轮自动保存模型文件CPU 进程数设置为 86 以提升音频处理效率全程关闭显存缓存规避小显存溢出问题数据集素材截取于《拳皇 15》原版游戏语音使用万兴喵影完成录制、转码与切片共 20 段音频单段时长 5 秒统一处理为标准单声道 WAV 格式。使用前建议对输入音频做标准化处理防止音准偏移、咬字模糊等问题。三官方推荐推理参数必设为保证音色还原度与运行稳定性不同硬件设备请严格遵循以下参数配置通用基础参数推理采样率 24kHz、音高算法选择 RMVPE、检索特征占比 0.78、音高指导开启、batch_size 设置为 1硬件适配方案8GB 及以上显存显卡可自由选择 CPU 或 GPU 推理4GB 及以下老旧显卡务必保持 batch_size1 并关闭显存缓存纯 CPU 推理无需额外调整参数仅推理速度略有下降音色不受影响。四、模型部署教程适配全版本 RVC WebUI本模型兼容市面上所有版本的 RVC WebUI同时支持流明平台导入部署流程简单易操作新手也可快速上手文件放置将Athena Asamiya15R2.pth复制到 RVC 根目录weights文件夹将索引文件放入logs/Athena Asamiya15R2/目录无对应文件夹可手动新建将config.json替换至软件配置目录。加载验证启动 RVC WebUI在模型下拉菜单选中Athena Asamiya15R2索引文件会自动匹配加载加载完成即可开展语音、歌声转换工作。跨平台使用如需在流明平台使用直接导入模型文件并沿用上述推理参数即可。五、开源规范、使用准则与公测说明1. 使用权限划分允许个人免费使用、非商用翻唱、同人创作、技术交流、非盈利分享与参数二次调优严禁用于商业盈利、收费分发、模型倒卖、反编译拆解、音色提取以及闭源二次发布等行为。2. 内容创作规范禁止利用本模型生成违法、暴力、色情、低俗及侵权内容所有使用者需自行承担违规使用带来的法律责任。若公开发布基于本模型的作品必须标注歌手麻宫雅典娜 15R2柴框云公益开源。3. 公测反馈渠道目前麻宫雅典娜 15R2 声库处于公益公测阶段若大家在使用过程中遇到音色异常、音准偏差、设备卡顿等问题可通过 B 站、CSDN、项目官方网站留言反馈团队将根据反馈持续迭代优化版本。六、版本选择参考建议结合硬件配置与使用场景为大家提供选型参考如果你的设备为 GTX 1050 Ti且有本地自主训练模型的需求推荐选择初代麻宫雅典娜 RVCv2 轻量模型如果以日常推理、多平台使用为主设备为 4GB 低配显卡或纯 CPU 环境优先选用本次发布的 15R2 第二代版本追求低延迟、轻量化推理效果24kHz 采样率的 R2 版本是最优解。本系列项目初衷是降低 AI 语音技术的使用门槛让每一台低配电脑都能体验 RVC 模型的魅力。也希望广大技术爱好者一同守护开源环境合理合规使用开源成果共同交流学习 AI 语音合成相关技术。