iPentec.com / Document / カテゴリ: Software / タグ: Software Style-Bert-VITS2

Style-Bert-VITS2でモデルをマージする

概要

Style-Bert-VITS2では2つのモデルをマージして、合成モデルを作成できます。マージの際に声質、声の高さ、話し方、話す速さ・リズムなどのパラメーターの重みを変化させ、マージする度合いを変えることもできます。

事前準備

Anneliモデルの入手

Anneliモデルをダウンロードします。Hugging Faceの以下のURLからダウンロードできます。

https://huggingface.co/kaunista/kaunista-style-bert-vits2-models

または

https://huggingface.co/Anneli1/style-bert-vits2-Anneli

ダウンロードしたモデルファイル一式を、以下のフォルダに配置します。

Anneli_e116_s32000.safetensors
config.json
style_vectors.npy

(Style-Bert-VITS2の配置ディレクトリ)\model_assets\Anneli

手順

今回はこちらの記事で音声データから学習したモデルと、感情表現が豊かな Anneli のモデルとマージして、学習したモデルの棒読み感を改善します。

Style-Bert-VITS2配置ディレクトリの App.bat ファイルを実行します。
Webブラウザが開きます。下図のページが表示されます。
Style-Bert-VITS2でモデルをマージする:画像1

ページ上部のタブの[マージ]をクリックします。下図の画面に切り替わります。
Style-Bert-VITS2でモデルをマージする:画像2

[マージ方法]は"通常マージ"とします。 [モデルA]は音声データから学習したモデルを指定します。[モデルB]には"Anneli"を指定します。
Style-Bert-VITS2でモデルをマージする:画像3

[新しいモデル名]にマージ結果のモデル名を設定します。今回は"yukari-anneli-merge"としています。声質と声の高さは元のモデルを利用するため"0"、話し方、話す速さ・リズム・テンポは Anneli を優先するため"1"としています。
Style-Bert-VITS2でモデルをマージする:画像4

[モデルファイルのマージ]ボタンをクリックします。
Style-Bert-VITS2でモデルをマージする:画像5

マージが実行されます。成功すると以下のメッセージが表示されます。

メッセージ

Success: モデルをmodel_assets\(マージモデル名)\(マージモデル名).safetensors に保存しました。

Style-Bert-VITS2でモデルをマージする:画像6

動作確認

ページを下にスクロールし、[結果のテスト]のセクションを表示します。
Style-Bert-VITS2でモデルをマージする:画像7

[テキスト]に合成したいテキストを入力します。今回はデフォルトのままとします。[音声合成]ボタンをクリックします。
Style-Bert-VITS2でモデルをマージする:画像8

音声合成され、ボタンの下部に生成された音声の波形が表示されます。
Style-Bert-VITS2でモデルをマージする:画像9

[再生]ボタンをクリックして音声を再生します。
Style-Bert-VITS2でモデルをマージする:画像10

生成された音声が明るすぎて元の学習モデルのテイストが失われているため、話し方、話す速さ・リズム・テンポを"0.7"に設定したモデルも作成します。

スタイルの設定

Anneliのモデルにはスタイルがあるため、マージ後のモデルでもスタイルを利用できるようにします。
下にスクロールし、[スタイルベクトルのマージ]セクションを表示します。
Style-Bert-VITS2でモデルをマージする:画像12

作るスタイルの数をAnneliのモデルと同じ"6"に設定します。スタイルの項目が6行表示されます。

[モデルBのスタイル名]のドロップダウンリストボックスをクリックします。Anneliモデルのスタイルが表示されますので、スタイルを選択します。
Style-Bert-VITS2でモデルをマージする:画像14

各行、それぞれ異なるスタイルを設定しました。

右側の列の[出力スタイル名]を編集します。設定後[スタイルのマージ]ボタンをクリックします。

スタイルのマージが処理され、以下のメッセージが表示されます。