参考書籍

業務効率化に向けたおすすめの参考書になります。

インストール手順

このセクションでは、WhisperをWindows 10のオペレーティングシステムでPython 3.10を使用してセットアップする方法を説明します。

  • 前提条件:Whisperのインストールと正常な動作には、ffmpegとGitが必要です。これらのツールは事前にシステムにインストールされている必要があります。
  • Python 3.10のインストール:Python 3.10は、Pythonの公式ダウンロードページから入手できます。インストーラーをダウンロードし、「Add Python 3.10 to PATH」のオプションを選択してインストールしてください。
  • Whisperライブラリのインストール:コマンドプロンプトを開き、以下のコマンドを実行してWhisperをインストールします。
    pip install git+https://github.com/openai/whisper.git

使い方

基本的な使用法(CPU)

WhisperはデフォルトでCPUを使用して音声をテキストに変換します。以下のコードはlarge-v3モデルを使用します:

import whisper

# large-v3 モデルのロード
model = whisper.load_model("large-v3")

# 音声ファイルをテキストに変換
result = model.transcribe("path_to_your_audio_file.wav")
print(result["text"])
    

GPUを使用する場合

GPUを使用してWhisperの処理速度を向上させる手順を含めます。適切なCUDA対応ドライバーとライブラリが必要です。

対応している音声ファイルの形式

Whisperは、以下の音声ファイル形式をサポートしています:

  • WAV (.wav)
  • MP3 (.mp3)
  • FLAC (.flac)
  • AAC (.m4a, .aac)
  • OGG (.ogg)

設定の仕方(公式ページ付)

Whisperの設定やモデル選択の詳細については、Whisperの公式GitHubページを参照してください。

あざらし

はじめまして、あざらしです。 フリーターからエンジニア会社へ就職し、 現在はフリーランスのシステムエンジニアとして働いています。 本業のエンジニア業のかたわら、 ✍️ ブログ運営 と「収入の柱を増やす挑戦」を少しずつ続けています。 フリーター時代から比べると、 段階的に収入が増えていくのを実感できるのが素直にうれしい今日この頃。 このブログでは、日々の気づき・体験談 IT・ガジェット・ゲーム系の話 「調べて分かったこと」を噛み砕いた解説 などを中心に、ジャンルに縛られない雑記ブログとして発信しています。 「自分と同じように悩んでいる人のヒントになればいいな」 そんな気持ちで更新中です。 👉 プロフィール詳細は、名前「あざらし」をクリックしてください