Qwen3-TTS をローカルPCにインストールする

デアルン
質問: Qwen3-TTS
最新のTextToSpeechのモデル"Qwen3-TTS"が登場したと聞きました。性能もかなり良さそうなので、自分のPCで利用したいのですが、 どのようにセットアップすればよいですか?


Qwen3-TTS をローカルマシンにインストールする手順を紹介します。

事前準備

Pythonのインストール

Pythonをインストールします。バージョン 3.12 が推奨されているようです。
インストール手順はこちらの記事を参照してください。

Gitのインストール

Gitをインストールします。インストール手順はこちらの記事を参照してください。

GitHubからのダウンロード

Qwen3-TTSのプログラムをGitHubから取得します。次のコマンドを実行します。

cd (Qwen3-TTSを配置するディレクトリ)
git clone https://github.com/QwenLM/Qwen3-TTS.git

仮想環境の作成

公式ドキュメントでは、condaを利用していますが、この記事ではvenvを利用します。

cd Qwen3-TTS
python -m venv .venv
python -m pip install -U pip

ライブラリのインストール

.venv\Scripts\Activate.bat
pip install -e .
メモ
Windowsマシンでの実行のため、 FlashAttention 2 はインストールしません。
また、SoXもインストールしなくても動作するため、今回はインストールしません。

PyTorchの入れ替え

利用しているGPUに合わせてTorchを入れ替えます。以下はRTX 5000 シリーズ(Blackwell)の場合の例です。

pip uninstall torch torchvision torchaudio -y 
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

起動スクリプトの作成

コマンドを実行してWebUIを起動する仕様ですが、毎回コマンドを入力するのは大変なので、以下のバッチファイルを作成します。

exec-base.bat
@echo off

call .venv\Scripts\activate.bat
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --ip 127.0.0.1 --port 8000 --no-flash-attn

exec-design.bat
@echo off

call .venv\Scripts\activate.bat
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --ip 127.0.0.1 --port 8000 --no-flash-attn

exec-custom.bat
@echo off

call .venv\Scripts\activate.bat
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 127.0.0.1 --port 8000 --no-flash-attn

実行

作成したバッチファイルを実行します。今回は、exec-base.batを実行しています。

準備ができると、* Running on local URL: http://127.0.0.1:8000 のメッセージが表示されます。
Qwen3-TTS をローカルPCにインストールする:画像1

http://127.0.0.1:8000 にWebブラウザでアクセスします。下図のページ(WebUI)が表示されます。
Qwen3-TTS をローカルPCにインストールする:画像2


音声合成します。
左上の[Reference Audio]に参照元の音声を設定します。エクスプローラーからwavファイルをこの枠にドラッグ&ドロップすれば設定できます。 Referecnce Textにこの参照音声がしゃべっているセリフのテキストを入力します。
Qwen3-TTS をローカルPCにインストールする:画像3

中央の[Target Text]のテキストボックスにしゃべらせたいテキストを入力します。
[Language]のドロップダウンリストはAutoのままでも良いですし、[Japanese]に変更しても良いです。
Qwen3-TTS をローカルPCにインストールする:画像4

[Generate]ボタンをクリックして音声合成をします。処理が完了すると右側に生成されたオーディオが表示されます。
Qwen3-TTS をローカルPCにインストールする:画像5

生成結果


生成結果は以下の動画で紹介しています。

仕様面

  • 感情表現をパラメーターではできないため、感情表現したい場合はリファレンスの音声に感情が入っているものを利用する必要がありそう
  • 生成のたびに微妙にイントネーションが変化するため、何度も生成しなおすことでイメージ通りのイントネーションが得られる場合があります。

良い部分

  • 一般的な平文のイントネーションはかなり自然

微妙な部分

  • 擬音系のイントネーションはもう一歩 「つやつや」「やっほー」「うえーん」など


調整をしていない生成結果そのままの音声です。

Style-Bert-VITS2 と Qwen3-TTS の比較

Style-Bert-VITS2との違いを比較します。比較結果は以下の動画です。

Style-Bert-VITS2

  • 日本語のアクセントがQwen3-TTSより良いです。"咲き誇る花々" といったアクセントが正しく表現できています。
  • 固有名詞の発音が弱い印象があります

Qwen3-TTS

  • 大部分の音質やアクセントはStyle-Bert-VITS2より良好です
  • 一部のアクセントに違和感があります。「セントモルガン島」「咲き誇る花々」など


AuthorPortraitAlt
著者
iPentecのプログラマー、最近はAIの積極的な活用にも取り組み中。
とっても恥ずかしがり。
作成日: 2026-01-23