Style-Bert-VITS2で2つのモデルをマージして合成モデルを作成する手順を紹介します。
Style-Bert-VITS2では2つのモデルをマージして、合成モデルを作成できます。
マージの際に声質、声の高さ、話し方、話す速さ・リズムなどのパラメーターの重みを変化させ、マージする度合いを変えることもできます。
Anneliモデルをダウンロードします。Hugging Faceの以下のURLからダウンロードできます。
ダウンロードしたモデルファイル一式を、以下のフォルダに配置します。
(Style-Bert-VITS2の配置ディレクトリ)\model_assets\Anneli
今回はこちらの記事で音声データから学習したモデルと、
感情表現が豊かな Anneli のモデルとマージして、学習したモデルの棒読み感を改善します。
Style-Bert-VITS2配置ディレクトリの App.bat
ファイルを実行します。
Webブラウザが開きます。下図のページが表示されます。
ページ上部のタブの[マージ]をクリックします。下図の画面に切り替わります。
[マージ方法]は"通常マージ"とします。
[モデルA]は音声データから学習したモデルを指定します。[モデルB]には"Anneli"を指定します。
[新しいモデル名]にマージ結果のモデル名を設定します。今回は"yukari-anneli-merge"としています。
声質と声の高さは元のモデルを利用するため"0"、話し方、話す速さ・リズム・テンポは Anneli を優先するため"1"としています。
[モデルファイルのマージ]ボタンをクリックします。
マージが実行されます。成功すると以下のメッセージが表示されます。
ページを下にスクロールし、[結果のテスト]のセクションを表示します。
[テキスト]に合成したいテキストを入力します。今回はデフォルトのままとします。[音声合成]ボタンをクリックします。
音声合成され、ボタンの下部に生成された音声の波形が表示されます。
[再生]ボタンをクリックして音声を再生します。
生成された音声が明るすぎて元の学習モデルのテイストが失われているため、話し方、話す速さ・リズム・テンポを"0.7"に設定したモデルも作成します。
Anneliのモデルにはスタイルがあるため、マージ後のモデルでもスタイルを利用できるようにします。
下にスクロールし、[スタイルベクトルのマージ]セクションを表示します。
作るスタイルの数をAnneliのモデルと同じ"6"に設定します。スタイルの項目が6行表示されます。
[モデルBのスタイル名]のドロップダウンリストボックスをクリックします。Anneliモデルのスタイルが表示されますので、スタイルを選択します。
各行、それぞれ異なるスタイルを設定しました。
右側の列の[出力スタイル名]を編集します。設定後[スタイルのマージ]ボタンをクリックします。
スタイルのマージが処理され、以下のメッセージが表示されます。
音声合成のタブでマージしたモデルをロードし、
[スタイル]のドロップダウンリストボックスをクリックすると、設定したスタイルが表示され、選択できます。
それぞれのモデルでの生成結果の違いを比較します。
結果は下図の動画です。