AIVM (Aivis Voice Model) / AIVMX (Aivis Voice Model for ONNX) ファイルを作成する手順を紹介します。
AivisSpeech でモデルを追加する場合には、AIVMX ファイルを準備する必要があります。
Hugging Faceなどで配布されているモデルの多くは、safetensors形式のため、そのままでは利用できません。
この記事ではAIVM / AIVMX ファイルを作成する手順を紹介します。
AIVM / AIVMX ファイルの変換元となるsafetensorsモデルを準備します。
onnxモデルを準備します。safetensorsモデルにonnxモデルが付属している場合はそのまま利用します。
onnxモデルがない場合は、safetensorsモデルから変換します。変換手順はこちらの記事を参照してください。
safetensorsモデルとonnxモデルを準備すると、以下の4ファイルが準備できます。
AIVM Generator (https://aivm-generator.aivis-project.com/)にアクセスします。
下図のページが表示されます。
下にスクロールします。[各ファイルから新規生成]のタブまでスクロールします。
各フィールドにファイルを設定します。[音声合成モデルのアーキテクチャを選択]は今回は日本語モデルのため、"Style-Bart-VITS2 (JP-Extra)"を選択します。
[学習済みモデル(.safetensors)を選択] [ONNXモデル(.onnx)を選択] [ハイパーパラメーター(config.json)を選択] [スタイルベクトル (styel_vector.npy)を選択]
のフィールドに先の準備したモデルファイルを設定します。
また、[メタデータ編集]の各フィールドにも入力します。
下にスクロールします。[話者1]のタブの下のモデル情報を設定します。
アイコン画像を設定します。リリース用のモデルの場合はボイスサンプルを埋め込むこともできます。今回は埋め込まずに変換します。
ページの一番下の[上記メタデータで AIVM / AIVMX ファイル (.aivm / .aivmx) を生成]ボタンをクリックします。
.aivm / .aivmx ファイルのダウンロードが始まります。複数ファイルダウンロードの許可ダイアログが表示されますので[許可]ボタンをクリックします。
2つのファイルがダウンロードされます。
.aivm / .aivmx ファイルが作成できました。