Qwen3-TTS をローカルマシンにインストールする手順を紹介します。
Pythonをインストールします。バージョン 3.12 が推奨されているようです。
インストール手順はこちらの記事を参照してください。
Gitをインストールします。インストール手順はこちらの記事を参照してください。
Qwen3-TTSのプログラムをGitHubから取得します。次のコマンドを実行します。
cd (Qwen3-TTSを配置するディレクトリ)
git clone https://github.com/QwenLM/Qwen3-TTS.git
公式ドキュメントでは、condaを利用していますが、この記事ではvenvを利用します。
cd Qwen3-TTS
python -m venv .venv
python -m pip install -U pip
.venv\Scripts\Activate.bat
pip install -e .
利用しているGPUに合わせてTorchを入れ替えます。以下はRTX 5000 シリーズ(Blackwell)の場合の例です。
pip uninstall torch torchvision torchaudio -y
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
コマンドを実行してWebUIを起動する仕様ですが、毎回コマンドを入力するのは大変なので、以下のバッチファイルを作成します。
@echo off
call .venv\Scripts\activate.bat
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --ip 127.0.0.1 --port 8000 --no-flash-attn
@echo off
call .venv\Scripts\activate.bat
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --ip 127.0.0.1 --port 8000 --no-flash-attn
@echo off
call .venv\Scripts\activate.bat
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 127.0.0.1 --port 8000 --no-flash-attn
作成したバッチファイルを実行します。今回は、exec-base.batを実行しています。
準備ができると、* Running on local URL: http://127.0.0.1:8000 のメッセージが表示されます。
http://127.0.0.1:8000 にWebブラウザでアクセスします。下図のページ(WebUI)が表示されます。
音声合成します。
左上の[Reference Audio]に参照元の音声を設定します。エクスプローラーからwavファイルをこの枠にドラッグ&ドロップすれば設定できます。
Referecnce Textにこの参照音声がしゃべっているセリフのテキストを入力します。
中央の[Target Text]のテキストボックスにしゃべらせたいテキストを入力します。
[Language]のドロップダウンリストはAutoのままでも良いですし、[Japanese]に変更しても良いです。
[Generate]ボタンをクリックして音声合成をします。処理が完了すると右側に生成されたオーディオが表示されます。
生成結果は以下の動画で紹介しています。
調整をしていない生成結果そのままの音声です。
Style-Bert-VITS2との違いを比較します。比較結果は以下の動画です。