Style-Bert-VITS2でモデルをマージする

Style-Bert-VITS2で2つのモデルをマージして合成モデルを作成する手順を紹介します。

概要

Style-Bert-VITS2では2つのモデルをマージして、合成モデルを作成できます。 マージの際に声質、声の高さ、話し方、話す速さ・リズムなどのパラメーターの重みを変化させ、マージする度合いを変えることもできます。

事前準備

Anneliモデルの入手

Anneliモデルをダウンロードします。Hugging Faceの以下のURLからダウンロードできます。

ダウンロードしたモデルファイル一式を、以下のフォルダに配置します。

  • Anneli_e116_s32000.safetensors
  • config.json
  • style_vectors.npy
(Style-Bert-VITS2の配置ディレクトリ)\model_assets\Anneli

手順

今回はこちらの記事で音声データから学習したモデルと、 感情表現が豊かな Anneli のモデルとマージして、学習したモデルの棒読み感を改善します。


Style-Bert-VITS2配置ディレクトリの App.bat ファイルを実行します。
Webブラウザが開きます。下図のページが表示されます。
Style-Bert-VITS2でモデルをマージする:画像1

ページ上部のタブの[マージ]をクリックします。下図の画面に切り替わります。
Style-Bert-VITS2でモデルをマージする:画像2

[マージ方法]は"通常マージ"とします。 [モデルA]は音声データから学習したモデルを指定します。[モデルB]には"Anneli"を指定します。
Style-Bert-VITS2でモデルをマージする:画像3

[新しいモデル名]にマージ結果のモデル名を設定します。今回は"yukari-anneli-merge"としています。 声質と声の高さは元のモデルを利用するため"0"、話し方、話す速さ・リズム・テンポは Anneli を優先するため"1"としています。
Style-Bert-VITS2でモデルをマージする:画像4

[モデルファイルのマージ]ボタンをクリックします。
Style-Bert-VITS2でモデルをマージする:画像5

マージが実行されます。成功すると以下のメッセージが表示されます。

メッセージ
Success: モデルをmodel_assets\(マージモデル名)\(マージモデル名).safetensors に保存しました。

Style-Bert-VITS2でモデルをマージする:画像6

動作確認

ページを下にスクロールし、[結果のテスト]のセクションを表示します。
Style-Bert-VITS2でモデルをマージする:画像7

[テキスト]に合成したいテキストを入力します。今回はデフォルトのままとします。[音声合成]ボタンをクリックします。
Style-Bert-VITS2でモデルをマージする:画像8

音声合成され、ボタンの下部に生成された音声の波形が表示されます。
Style-Bert-VITS2でモデルをマージする:画像9

[再生]ボタンをクリックして音声を再生します。
Style-Bert-VITS2でモデルをマージする:画像10

生成された音声が明るすぎて元の学習モデルのテイストが失われているため、話し方、話す速さ・リズム・テンポを"0.7"に設定したモデルも作成します。
Style-Bert-VITS2でモデルをマージする:画像11

スタイルの設定

Anneliのモデルにはスタイルがあるため、マージ後のモデルでもスタイルを利用できるようにします。
下にスクロールし、[スタイルベクトルのマージ]セクションを表示します。
Style-Bert-VITS2でモデルをマージする:画像12

作るスタイルの数をAnneliのモデルと同じ"6"に設定します。スタイルの項目が6行表示されます。
Style-Bert-VITS2でモデルをマージする:画像13

[モデルBのスタイル名]のドロップダウンリストボックスをクリックします。Anneliモデルのスタイルが表示されますので、スタイルを選択します。
Style-Bert-VITS2でモデルをマージする:画像14

各行、それぞれ異なるスタイルを設定しました。
Style-Bert-VITS2でモデルをマージする:画像15

右側の列の[出力スタイル名]を編集します。設定後[スタイルのマージ]ボタンをクリックします。
Style-Bert-VITS2でモデルをマージする:画像16

スタイルのマージが処理され、以下のメッセージが表示されます。

メッセージ
Success: (マージモデル名)のスタイルを保存しました。

Style-Bert-VITS2でモデルをマージする:画像17


音声合成のタブでマージしたモデルをロードし、 [スタイル]のドロップダウンリストボックスをクリックすると、設定したスタイルが表示され、選択できます。
Style-Bert-VITS2でモデルをマージする:画像18

比較

それぞれのモデルでの生成結果の違いを比較します。
Style-Bert-VITS2でモデルをマージする:画像19

結果は下図の動画です。

AuthorPortraitAlt
著者
iPentecの企画・分析担当。口が悪いのでなるべく寡黙でありたいと思っている。が、ついついしゃべってしまい、毎回墓穴を掘っている。
作成日: 2024-11-23
Copyright © 1995–2025 iPentec all rights reserverd.