OpenAI Whisper をインストールする手順を紹介します。
音声ファイルからしゃべっている内容をテキストで出力するWhisperアプリケーションをインストールします。
Pythonをインストールします。今回は、Python 3.10 系をインストールしています。
Whisperを配置するディレクトリを決めます。今回は D:\Storage\whisper
に配置します。
以下のコマンドを実行します。
cd D:\Storage
mkedir whisper
cd whisper
以下のコマンドを実行してwhisper配置ディレクトリに仮想環境を作成します。
python.exe -m venv venv
または
"(python.exe の配置パス)\python.exe" -m venv venv
以下のコマンドを実行して仮想環境に切り替えます。
venv\Scripts\activate
仮想環境に変更できたら、Whisperをインストールします。以下のコマンドを実行します。
pip install -U openai-whisper
Torch / Pytorch をインストールします。以下のコマンドを実行します。
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
Pythonからffmpegを呼び出すためのライブラリをインストールします。以下のコマンドを実行します。
pip install ffmpeg-python
ffmpegの実行ファイルを入手して配置します。
FFmpegのビルドのGitHub(https://github.com/BtbN/FFmpeg-Builds)にアクセスします。
下図のページが表示されますので、右側の[Releases]のリンクをクリックします。
下図のページが表示されます。または直接(https://github.com/BtbN/FFmpeg-Builds/releases)にアクセスしてもよいです。
[Assets]のWindows 64ビット版のプログラムのリンクをクリックします。下図の例では、"ffmpeg-master-latest-win64-gpl.zip" のリンクになります。
ダウンロードが始まります。
ビルド後のプログラムが含まれているZIPファイルがダウンロードできました。ZIPファイルを展開(解凍)します。
展開されたプログラムのディレクトリをWhisperの配置ディレクトリに内に配置します。
今回の例では D:\Storage\whispter\
に配置しました。ffmpeg.exeのフルパスはD:\Storage\whisper\ffmpeg-master-latest-win64-gpl\bin\ffmpeg.exe
となります。
ffmpegの実行ファイル(ffmpeg.exe)のディレクトリにパスを通します。仮想環境のパスを設定するため、activate.bat ファイルを編集します。
ファイルは以下に配置されています。
(Whisper配置ディレクトリ)\venv\Scripts\activate.bat
インストールディレクトリのパスに応じて、activate.bat ファイルの内容は異なるため、ここに掲載している内容は一例です。
@echo off
rem This file is UTF-8 encoded, so we need to update the current code page while executing it
for /f "tokens=2 delims=:." %%a in ('"%SystemRoot%\System32\chcp.com"') do (
set _OLD_CODEPAGE=%%a
)
if defined _OLD_CODEPAGE (
"%SystemRoot%\System32\chcp.com" 65001 > nul
)
set VIRTUAL_ENV=D:\Storage\whisper\venv
if not defined PROMPT set PROMPT=$P$G
if defined _OLD_VIRTUAL_PROMPT set PROMPT=%_OLD_VIRTUAL_PROMPT%
if defined _OLD_VIRTUAL_PYTHONHOME set PYTHONHOME=%_OLD_VIRTUAL_PYTHONHOME%
set _OLD_VIRTUAL_PROMPT=%PROMPT%
set PROMPT=(venv) %PROMPT%
if defined PYTHONHOME set _OLD_VIRTUAL_PYTHONHOME=%PYTHONHOME%
set PYTHONHOME=
if defined _OLD_VIRTUAL_PATH set PATH=%_OLD_VIRTUAL_PATH%
if not defined _OLD_VIRTUAL_PATH set _OLD_VIRTUAL_PATH=%PATH%
set PATH=%VIRTUAL_ENV%\Scripts;%PATH%
set VIRTUAL_ENV_PROMPT=(venv)
:END
if defined _OLD_CODEPAGE (
"%SystemRoot%\System32\chcp.com" %_OLD_CODEPAGE% > nul
set _OLD_CODEPAGE=
)
set PATH
に ffmpegのバイナリプログラムの配置パス D:\Storage\whisper\ffmpeg-master-latest-win64-gpl\bin
を追記します。
@echo off
rem This file is UTF-8 encoded, so we need to update the current code page while executing it
for /f "tokens=2 delims=:." %%a in ('"%SystemRoot%\System32\chcp.com"') do (
set _OLD_CODEPAGE=%%a
)
if defined _OLD_CODEPAGE (
"%SystemRoot%\System32\chcp.com" 65001 > nul
)
set VIRTUAL_ENV=D:\Storage\whisper\venv
if not defined PROMPT set PROMPT=$P$G
if defined _OLD_VIRTUAL_PROMPT set PROMPT=%_OLD_VIRTUAL_PROMPT%
if defined _OLD_VIRTUAL_PYTHONHOME set PYTHONHOME=%_OLD_VIRTUAL_PYTHONHOME%
set _OLD_VIRTUAL_PROMPT=%PROMPT%
set PROMPT=(venv) %PROMPT%
if defined PYTHONHOME set _OLD_VIRTUAL_PYTHONHOME=%PYTHONHOME%
set PYTHONHOME=
if defined _OLD_VIRTUAL_PATH set PATH=%_OLD_VIRTUAL_PATH%
if not defined _OLD_VIRTUAL_PATH set _OLD_VIRTUAL_PATH=%PATH%
rem この行を修正しています
set PATH=%VIRTUAL_ENV%\Scripts;%PATH%;D:\Storage\whisper\ffmpeg-master-latest-win64-gpl\bin
set VIRTUAL_ENV_PROMPT=(venv)
:END
if defined _OLD_CODEPAGE (
"%SystemRoot%\System32\chcp.com" %_OLD_CODEPAGE% > nul
set _OLD_CODEPAGE=
)
以上でインストールと設定は完了です。
テスト実行してみます。
テスト用の音声ファイルを C:\data\test_audo.wav
ファイルとして配置します。合わせて output
ディレクトリを作成します。
#img(‷software-install-openai-whisper-21",maxwidth=420)
次のコマンドを実行します。
whisper --model large --language Japanese "c:\data\test_audo.wav" --output_dir "c:\data\output"
実行するとワーニングが表示されますが、そのまま処理は進みます。
コンソールにサウンドでしゃべっている内容がテキストで表示されます。終了するとプロンプトの入力待ち状態に戻ります。
出力ディレクトリc:\data\output
を確認します。以下の5つのファイルが作成されています。
テキストファイルを開いて確認します。サウンドの内容がテキストに文字起こしできています。おおむねあっていますが、間違えている部分や、
同じ内容が2度繰り返されている部分があったりします。微修正は必要です。
OpenAI Whisper をインストールして実行できました。