Irodori-TTS のローカルマシンへのインストール

デアルン
質問: Irodori-TTSってどんな感じ?
Irodori-TTSという新しい音声合成モデルが登場した音聞きました。性能は良いのでしょうか?

Irodori-TTS をローカルマシンにインストールする手順を紹介します。

事前準備

Pythonのインストール

Pythonをインストールします。バージョン 3.10 以上が推奨されているようです。
インストール手順はこちらの記事を参照してください。

Gitのインストール

Gitをインストールします。インストール手順はこちらの記事を参照してください。

GitHubからのダウンロード

Irodori-TTS のプログラムをGitHubから取得します。次のコマンドを実行します。

cd (Irodori-TTSを配置するディレクトリ)
git clone https://github.com/Aratako/Irodori-TTS.git

または

cd (Irodori-TTSを配置するディレクトリ)
(git.exe のフルパス) clone https://github.com/Aratako/Irodori-TTS.git

uvコマンドの実行

次のuvコマンドを実行してライブラリをインストールします。

cd Irodori-TTS
uv sync

WebUIの起動

次のコマンドを実行してWebUIを起動します。

uv run python gradio_app.py --server-name 127.0.0.1 --server-port 7860

または

uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860


VoiceDesign のWebUIを起動する場合は次のコマンドになります。

uv run python gradio_app_voicedesign.py --server-name 127.0.0.1 --server-port 7861

または

uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861

操作

Irodori-TTS Inference (Reference Audio)

下図のページが表示されます。
Irodori-TTS のローカルマシンへのインストール:画像1

[Text]のテキストボックスに生成したいセリフの文字列を入力します。
[Reference Audio Upload (optional, blank = no-reference mode)]の欄に参照したい音声ファイルをドラッグ&ドロップする、 または枠をクリックして表示される選択ダイアログボックスでファイルを選択します。
Irodori-TTS のローカルマシンへのインストール:画像2

[Generate]ボタンをクリックします。音声合成ができると[Generated Audio 1]のエリアに生成された音声の波形が表示されます。 枠の再生ボタンをクリックすると音声を再生できます。
Irodori-TTS のローカルマシンへのインストール:画像3

Irodori-TTS VoiceDesign Inference

下図のページが表示されます。
Irodori-TTS のローカルマシンへのインストール:画像4

[Text]のテキストボックスに生成したいセリフの文字列を入力します。
[Caption / Style Prompt (optional)]のテキストボックスにはどのような声にしたいのかを入力します。
Irodori-TTS のローカルマシンへのインストール:画像5

[Generate]ボタンをクリックします。音声合成ができると[Generated Audio 1]のエリアに生成された音声の波形が表示されます。 枠の再生ボタンをクリックすると音声を再生できます。
Irodori-TTS のローカルマシンへのインストール:画像6

V3へのアップデート

V2を導入している場合は、Irodori-TTSをインストールしたディレクトリで、 以下のコマンドを実行して最新のコードにして起動すると、V3のモデルがダウンロードされ利用可能になります。

git pull


生成結果

生成結果は以下の動画で紹介しています。

仕様面

  • 感情表現をパラメーターではできないですが、絵文字で感情表現がある程度できます。
  • 生成のたびにイントネーションがそれなりに変化するため、何度も生成しなおすことでイメージ通りのイントネーションが得られる場合があります。
  • 参照音声の感情が生成音声に反映されるため、参照音声が明るいセリフだと生成音声もある程度明るい感じになります。
  • セリフの文面である程度の感情が乗ります。

Irodori-TTS, Fish Audio, MioTTS, T5Gemma-TTS, Qwen3-TTS, Style-Bert-VITS2 との比較


最初の例(ここ、セントモルガン島は~)の例において、Irodori-TTSの雰囲気だけ少し異なりますが、これは、参照音声が元気いっぱいのセリフのためです。 Irodori-TTSでは参照音声の語り口や感情が生成音声に反映されやすいです。なお、参照音声は同じものを利用しています。

絵文字について

[Text]のテキストボックスに絵文字を入力することで感情表現ができます。 対応している絵文字は以下があります。
オリジナルの定義はhttps://huggingface.co/Aratako/Irodori-TTS-500M-v2/blob/main/EMOJI_ANNOTATIONS.mdを参照してください。

絵文字表す意味・感情・スタイル補足
👂囁き、耳元の音単体では効果が出にくい印象です。音声参照の場合も効果が出にくい印象です。👂👂👂👂のように複数記述する必要がありそうです。
😮‍💨吐息、溜息、寝息
⏸️間、沈黙
🤭笑い(くすくす、含み笑いなど)
🥵喘ぎ、うめき声、唸り声文中に入れると男性声になりやすいです。
📢エコー、リバーブ 複数並べると効果が出る印象です。📢📢📢📢
😏からかうように、甘えるように
🥺声を震わせながら、自信のなさげに
🌬️息切れ、荒い息遣い、呼吸音 「はぁ、はぁ、」と同様の発声になる印象です。
😮息をのむ
👅舐める音、咀嚼音、水音 文によっては「ちゅっ!」「じゅる!」と記述した場合と同様の音が出ます。
💋リップノイズ 一つだと効果が出にくいです。💋💋💋複数並べると効果が感じられます。
🫶優しく
😭嗚咽、泣き声、悲しみ 複数並べると効果がわかりやすいです。
😱悲鳴、叫び、絶叫
😪眠そうに、気だるげに
早口、一気にまくしたてる、急いで
📞電話越し、スピーカー越しのような音
🐢ゆっくりと
🥤唾を飲み込む音 一つだとうまくいかない場合があります。🥤🥤🥤と重ねたほうが良い場合があります。
🤧咳き込み、鼻をすする、くしゃみ、咳払い 🤧だと咳込むことが多いです。「🤧くしゅん」とするとくしゃみになります。
😒舌打ち
😰慌てて、動揺、緊張、どもり
😆喜びながら
😠怒り、不満げに、拗ねながら
😲驚き、感嘆
🥱あくび
😖苦しげに
😟心配そうに
🫣恥ずかしそうに、照れながら
🙄呆れたように
😊楽しげに、嬉しそうに
👌相槌、頷く音
🙏懇願するように
🥴酔っ払って 🥴🥴🥴並べると、泥酔感が出て話速が遅くなります。
🎵鼻歌
🤐口を塞がれて 「クク」と笑う声が出やすいです。
😌安堵、満足げに
🤔疑問の声


AuthorPortraitAlt
著者
iPentecのプログラマー、最近はAIの積極的な活用にも取り組み中。
とっても恥ずかしがり。
作成日: 2026-04-02