Irodori-TTS をローカルマシンにインストールする手順を紹介します。
Pythonをインストールします。バージョン 3.10 以上が推奨されているようです。
インストール手順はこちらの記事を参照してください。
Gitをインストールします。インストール手順はこちらの記事を参照してください。
Irodori-TTS のプログラムをGitHubから取得します。次のコマンドを実行します。
cd (Irodori-TTSを配置するディレクトリ)
git clone https://github.com/Aratako/Irodori-TTS.git
または
cd (Irodori-TTSを配置するディレクトリ)
(git.exe のフルパス) clone https://github.com/Aratako/Irodori-TTS.git
次のuvコマンドを実行してライブラリをインストールします。
cd Irodori-TTS
uv sync
次のコマンドを実行してWebUIを起動します。
uv run python gradio_app.py --server-name 127.0.0.1 --server-port 7860
または
uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860
VoiceDesign のWebUIを起動する場合は次のコマンドになります。
uv run python gradio_app_voicedesign.py --server-name 127.0.0.1 --server-port 7861
または
uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861
下図のページが表示されます。
[Text]のテキストボックスに生成したいセリフの文字列を入力します。
[Reference Audio Upload (optional, blank = no-reference mode)]の欄に参照したい音声ファイルをドラッグ&ドロップする、
または枠をクリックして表示される選択ダイアログボックスでファイルを選択します。
[Generate]ボタンをクリックします。音声合成ができると[Generated Audio 1]のエリアに生成された音声の波形が表示されます。
枠の再生ボタンをクリックすると音声を再生できます。
下図のページが表示されます。
[Text]のテキストボックスに生成したいセリフの文字列を入力します。
[Caption / Style Prompt (optional)]のテキストボックスにはどのような声にしたいのかを入力します。
[Generate]ボタンをクリックします。音声合成ができると[Generated Audio 1]のエリアに生成された音声の波形が表示されます。
枠の再生ボタンをクリックすると音声を再生できます。
V2を導入している場合は、Irodori-TTSをインストールしたディレクトリで、
以下のコマンドを実行して最新のコードにして起動すると、V3のモデルがダウンロードされ利用可能になります。
git pull
生成結果は以下の動画で紹介しています。
[Text]のテキストボックスに絵文字を入力することで感情表現ができます。
対応している絵文字は以下があります。
オリジナルの定義はhttps://huggingface.co/Aratako/Irodori-TTS-500M-v2/blob/main/EMOJI_ANNOTATIONS.mdを参照してください。
| 絵文字 | 表す意味・感情・スタイル | 補足 |
|---|---|---|
| 👂 | 囁き、耳元の音 | 単体では効果が出にくい印象です。音声参照の場合も効果が出にくい印象です。👂👂👂👂のように複数記述する必要がありそうです。 |
| 😮💨 | 吐息、溜息、寝息 | |
| ⏸️ | 間、沈黙 | |
| 🤭 | 笑い(くすくす、含み笑いなど) | |
| 🥵 | 喘ぎ、うめき声、唸り声 | 文中に入れると男性声になりやすいです。 |
| 📢 | エコー、リバーブ | 複数並べると効果が出る印象です。📢📢📢📢 |
| 😏 | からかうように、甘えるように | |
| 🥺 | 声を震わせながら、自信のなさげに | |
| 🌬️ | 息切れ、荒い息遣い、呼吸音 | 「はぁ、はぁ、」と同様の発声になる印象です。 |
| 😮 | 息をのむ | |
| 👅 | 舐める音、咀嚼音、水音 | 文によっては「ちゅっ!」「じゅる!」と記述した場合と同様の音が出ます。 |
| 💋 | リップノイズ | 一つだと効果が出にくいです。💋💋💋複数並べると効果が感じられます。 |
| 🫶 | 優しく | |
| 😭 | 嗚咽、泣き声、悲しみ | 複数並べると効果がわかりやすいです。 |
| 😱 | 悲鳴、叫び、絶叫 | |
| 😪 | 眠そうに、気だるげに | |
| ⏩ | 早口、一気にまくしたてる、急いで | |
| 📞 | 電話越し、スピーカー越しのような音 | |
| 🐢 | ゆっくりと | |
| 🥤 | 唾を飲み込む音 | 一つだとうまくいかない場合があります。🥤🥤🥤と重ねたほうが良い場合があります。 |
| 🤧 | 咳き込み、鼻をすする、くしゃみ、咳払い | 🤧だと咳込むことが多いです。「🤧くしゅん」とするとくしゃみになります。 |
| 😒 | 舌打ち | |
| 😰 | 慌てて、動揺、緊張、どもり | |
| 😆 | 喜びながら | |
| 😠 | 怒り、不満げに、拗ねながら | |
| 😲 | 驚き、感嘆 | |
| 🥱 | あくび | |
| 😖 | 苦しげに | |
| 😟 | 心配そうに | |
| 🫣 | 恥ずかしそうに、照れながら | |
| 🙄 | 呆れたように | |
| 😊 | 楽しげに、嬉しそうに | |
| 👌 | 相槌、頷く音 | |
| 🙏 | 懇願するように | |
| 🥴 | 酔っ払って | 🥴🥴🥴並べると、泥酔感が出て話速が遅くなります。 |
| 🎵 | 鼻歌 | |
| 🤐 | 口を塞がれて | 「クク」と笑う声が出やすいです。 |
| 😌 | 安堵、満足げに | |
| 🤔 | 疑問の声 |