OpenAI Whisper をインストールする

概要

音声ファイルからしゃべっている内容をテキストで出力するWhisperアプリケーションをインストールします。

事前準備

Pythonをインストールします。今回は、Python 3.10 系をインストールしています。

手順

Whisper配置ディレクトリの作成

Whisperを配置するディレクトリを決めます。今回は D:\Storage\whisper に配置します。
以下のコマンドを実行します。

cd D:\Storage
mkedir whisper
cd whisper

OpenAI Whisper をインストールする:画像1

仮想環境の作成

以下のコマンドを実行してwhisper配置ディレクトリに仮想環境を作成します。

python.exe -m venv venv

または

"(python.exe の配置パス)\python.exe" -m venv venv

OpenAI Whisper をインストールする:画像2 OpenAI Whisper をインストールする:画像3

仮想環境への切り替え

以下のコマンドを実行して仮想環境に切り替えます。

venv\Scripts\activate

OpenAI Whisper をインストールする:画像4 OpenAI Whisper をインストールする:画像5

OpenAI Whisper のインストール

仮想環境に変更できたら、Whisperをインストールします。以下のコマンドを実行します。

pip install -U openai-whisper

OpenAI Whisper をインストールする:画像6

Torch のインストール

Torch / Pytorch をインストールします。以下のコマンドを実行します。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

OpenAI Whisper をインストールする:画像7

ffmpeg-pythonのインストール

Pythonからffmpegを呼び出すためのライブラリをインストールします。以下のコマンドを実行します。

pip install ffmpeg-python

OpenAI Whisper をインストールする:画像8

ffmpegのダウンロードと配置

ffmpegの実行ファイルを入手して配置します。
FFmpegのビルドのGitHub(https://github.com/BtbN/FFmpeg-Builds)にアクセスします。
下図のページが表示されますので、右側の[Releases]のリンクをクリックします。
OpenAI Whisper をインストールする:画像9

下図のページが表示されます。または直接(https://github.com/BtbN/FFmpeg-Builds/releases)にアクセスしてもよいです。
[Assets]のWindows 64ビット版のプログラムのリンクをクリックします。下図の例では、"ffmpeg-master-latest-win64-gpl.zip" のリンクになります。
OpenAI Whisper をインストールする:画像10

ダウンロードが始まります。
OpenAI Whisper をインストールする:画像11

ビルド後のプログラムが含まれているZIPファイルがダウンロードできました。ZIPファイルを展開(解凍)します。
OpenAI Whisper をインストールする:画像12

展開されたプログラムのディレクトリをWhisperの配置ディレクトリに内に配置します。
今回の例では D:\Storage\whispter\に配置しました。ffmpeg.exeのフルパスはD:\Storage\whisper\ffmpeg-master-latest-win64-gpl\bin\ffmpeg.exe となります。
OpenAI Whisper をインストールする:画像13

補足

FFmpegのインストールについてはこちらの記事も参照してください。

パスの設定

ffmpegの実行ファイル(ffmpeg.exe)のディレクトリにパスを通します。仮想環境のパスを設定するため、activate.bat ファイルを編集します。
ファイルは以下に配置されています。

(Whisper配置ディレクトリ)\venv\Scripts\activate.bat

インストールディレクトリのパスに応じて、activate.bat ファイルの内容は異なるため、ここに掲載している内容は一例です。

activate.bat (例:変更前)

@echo off

rem This file is UTF-8 encoded, so we need to update the current code page while executing it
for /f "tokens=2 delims=:." %%a in ('"%SystemRoot%\System32\chcp.com"') do (
    set _OLD_CODEPAGE=%%a
)
if defined _OLD_CODEPAGE (
    "%SystemRoot%\System32\chcp.com" 65001 > nul
)

set VIRTUAL_ENV=D:\Storage\whisper\venv

if not defined PROMPT set PROMPT=$P$G

if defined _OLD_VIRTUAL_PROMPT set PROMPT=%_OLD_VIRTUAL_PROMPT%
if defined _OLD_VIRTUAL_PYTHONHOME set PYTHONHOME=%_OLD_VIRTUAL_PYTHONHOME%

set _OLD_VIRTUAL_PROMPT=%PROMPT%
set PROMPT=(venv) %PROMPT%

if defined PYTHONHOME set _OLD_VIRTUAL_PYTHONHOME=%PYTHONHOME%
set PYTHONHOME=

if defined _OLD_VIRTUAL_PATH set PATH=%_OLD_VIRTUAL_PATH%
if not defined _OLD_VIRTUAL_PATH set _OLD_VIRTUAL_PATH=%PATH%

set PATH=%VIRTUAL_ENV%\Scripts;%PATH%
set VIRTUAL_ENV_PROMPT=(venv) 

:END
if defined _OLD_CODEPAGE (
    "%SystemRoot%\System32\chcp.com" %_OLD_CODEPAGE% > nul
    set _OLD_CODEPAGE=
)

OpenAI Whisper をインストールする:画像14

set PATH に ffmpegのバイナリプログラムの配置パス D:\Storage\whisper\ffmpeg-master-latest-win64-gpl\bin を追記します。

activate.bat (例:変更後)

@echo off

rem This file is UTF-8 encoded, so we need to update the current code page while executing it
for /f "tokens=2 delims=:." %%a in ('"%SystemRoot%\System32\chcp.com"') do (
    set _OLD_CODEPAGE=%%a
)
if defined _OLD_CODEPAGE (
    "%SystemRoot%\System32\chcp.com" 65001 > nul
)

set VIRTUAL_ENV=D:\Storage\whisper\venv

if not defined PROMPT set PROMPT=$P$G

if defined _OLD_VIRTUAL_PROMPT set PROMPT=%_OLD_VIRTUAL_PROMPT%
if defined _OLD_VIRTUAL_PYTHONHOME set PYTHONHOME=%_OLD_VIRTUAL_PYTHONHOME%

set _OLD_VIRTUAL_PROMPT=%PROMPT%
set PROMPT=(venv) %PROMPT%

if defined PYTHONHOME set _OLD_VIRTUAL_PYTHONHOME=%PYTHONHOME%
set PYTHONHOME=

if defined _OLD_VIRTUAL_PATH set PATH=%_OLD_VIRTUAL_PATH%
if not defined _OLD_VIRTUAL_PATH set _OLD_VIRTUAL_PATH=%PATH%

rem この行を修正しています
set PATH=%VIRTUAL_ENV%\Scripts;%PATH%;D:\Storage\whisper\ffmpeg-master-latest-win64-gpl\bin
set VIRTUAL_ENV_PROMPT=(venv) 

:END
if defined _OLD_CODEPAGE (
    "%SystemRoot%\System32\chcp.com" %_OLD_CODEPAGE% > nul
    set _OLD_CODEPAGE=
)

OpenAI Whisper をインストールする:画像15

以上でインストールと設定は完了です。

テスト実行

テスト実行してみます。

テスト用の音声ファイルを C:\data\test_audo.wav ファイルとして配置します。合わせて output ディレクトリを作成します。
#img(‷software-install-openai-whisper-21",maxwidth=420)

次のコマンドを実行します。

whisper --model large --language Japanese "c:\data\test_audo.wav" --output_dir "c:\data\output"

OpenAI Whisper をインストールする:画像16

実行するとワーニングが表示されますが、そのまま処理は進みます。
OpenAI Whisper をインストールする:画像17

コンソールにサウンドでしゃべっている内容がテキストで表示されます。終了するとプロンプトの入力待ち状態に戻ります。
OpenAI Whisper をインストールする:画像18

出力ディレクトリc:\data\outputを確認します。以下の5つのファイルが作成されています。