为语音 Core 做贡献

贡献者可以通过两种方式提升语音核心:

  • 改进文本转语音(TTS)模型
  • 贡献新的语音数据

由于语音识别(STT)模型目前使用的是 Azure 服务,其准确性已经达到最佳状态,无需进一步改进,因此无需对 STT 模型进行贡献。

改进 TTS 模型

与模型相关的所有文件都必须提交。本生态系统支持多个服务提供商。以下是它们及其要求的列表:

  • sovits.pth:这是您的主要模型文件。请确保按要求将其命名为 “sovits.pth”。
  • reference1.wav:.wav 格式的参考音频文件。请确保文件名称与 “config.json” 文件中的引用名称一致。
  • gpt.ckpt:模型的检查点文件。请确认其名称为 “gpt.ckpt”。
  • config.json:模型的配置文件。其名称必须为 “config.json”。

以下是完整模型示例文件夹提交的结构:

AudioModelSubmission/
├── sovits.pth # 主要模型文件
├── reference1.wav # 参考音频文件(名称与 config.json 中一致)
├── gpt.ckpt # 模型的检查点文件
└── config.json # 模型的配置文件

示例 config.json 文件内容如下:

{
  "refFile": "Olyn.wav",
  "refText": "yet still, I stand, a testiment to the resilience of human spirit"
}

要提交语音模型,请选择 “Voice Core”。

然后选择 “I got a Voice Model”,并按照上述指南上传模型文件。

新语音数据贡献

  • 提交的语音数据必须是合法获取且有权共享的。
  • 获取的语音数据必须来自可靠的来源。
  • 语音数据应无背景噪音,音频中仅保留要训练的语音。
  • 语音数据必须以 .wav 格式生成。