AIVM / AIVMX ファイルを作成する

概要

AivisSpeech でモデルを追加する場合には、AIVMX ファイルを準備する必要があります。 Hugging Faceなどで配布されているモデルの多くは、safetensors形式のため、そのままでは利用できません。この記事ではAIVM / AIVMX ファイルを作成する手順を紹介します。

事前準備:safetensorsモデルの準備

AIVM / AIVMX ファイルの変換元となるsafetensorsモデルを準備します。

事前準備:onnxモデルの入手

onnxモデルを準備します。safetensorsモデルにonnxモデルが付属している場合はそのまま利用します。 onnxモデルがない場合は、safetensorsモデルから変換します。変換手順はこちらの記事を参照してください。

ファイルの準備

safetensorsモデルとonnxモデルを準備すると、以下の4ファイルが準備できます。

(モデル名).safetensors
(モデル名).onnx
config.json
style_vectors.npy

変換

AIVM Generator (https://aivm-generator.aivis-project.com/)にアクセスします。
下図のページが表示されます。
AIVM / AIVMX ファイルを作成する:画像1

下にスクロールします。[各ファイルから新規生成]のタブまでスクロールします。
AIVM / AIVMX ファイルを作成する:画像2

各フィールドにファイルを設定します。[音声合成モデルのアーキテクチャを選択]は今回は日本語モデルのため、"Style-Bart-VITS2 (JP-Extra)"を選択します。
AIVM / AIVMX ファイルを作成する:画像3

[学習済みモデル(.safetensors)を選択] [ONNXモデル(.onnx)を選択] [ハイパーパラメーター(config.json)を選択] [スタイルベクトル (styel_vector.npy)を選択] のフィールドに先の準備したモデルファイルを設定します。
また、[メタデータ編集]の各フィールドにも入力します。
AIVM / AIVMX ファイルを作成する:画像4

下にスクロールします。[話者1]のタブの下のモデル情報を設定します。
AIVM / AIVMX ファイルを作成する:画像5

アイコン画像を設定します。リリース用のモデルの場合はボイスサンプルを埋め込むこともできます。今回は埋め込まずに変換します。
AIVM / AIVMX ファイルを作成する:画像6

ページの一番下の[上記メタデータで AIVM / AIVMX ファイル (.aivm / .aivmx) を生成]ボタンをクリックします。
AIVM / AIVMX ファイルを作成する:画像7