英語の動画の録音→文字起こし→翻訳

Youtubeで見たい動画があったが英語だった。字幕が出ないかと思ったがどうも字幕に対応していない動画だった。字幕対応の有無は何で決まっているのかわからないが。それで、動画を録音して文字起こししたテキストを翻訳すればよいと思う。ChatGPTに方法を聞く。Chromeの拡張機能で音声入力が可能になっているので適当にやりたいことを言うと以下のテキストに変換された。

YouTube を再生して音を録音して音声ファイルにする方法を教えてください マックでやりたいです

以下の回答が出た。

Soundflowerのインストール手順を細かく説明します。以下の手順に従って進めてください。

Soundflowerのインストール手順

  1. Soundflowerのダウンロード:
  • ウェブブラウザを開き、SoundflowerのGitHubリリースページにアクセスします。
  • 最新のリリース(通常は最上部に表示されます)を探し、「Soundflower-2.0b2.dmg」またはそれに近い名前のファイルをクリックしてダウンロードします。
  1. ダウンロードファイルの開封:
  • ダウンロードが完了したら、「Downloads」フォルダを開き、ダウンロードした「Soundflower-2.0b2.dmg」ファイルをダブルクリックします。
  • ディスクイメージがマウントされ、「Soundflower.pkg」が表示されます。
  1. インストーラーの起動:
  • 「Soundflower.pkg」をダブルクリックしてインストーラーを起動します。
  • インストーラーが開いたら、「続ける」をクリックしてインストールを進めます。
  1. セキュリティ設定の変更(必要に応じて):
  • macOSのセキュリティ設定によっては、Soundflowerのインストールがブロックされることがあります。その場合、以下の手順に従います。
  • 「システム環境設定」>「セキュリティとプライバシー」を開きます。
  • 「一般」タブで、画面下部にある「ダウンロードしたアプリケーションの実行許可」のセクションを確認します。
  • 「Soundflowerのインストールを許可」をクリックします。
  1. インストールの続行:
  • セキュリティ設定を変更した後、インストールを続行します。「続ける」をクリックして進め、「インストール」をクリックします。
  • 管理者パスワードの入力を求められた場合は、パスワードを入力し、「ソフトウェアをインストール」をクリックします。
  1. インストールの完了:
  • インストールが完了したら、「閉じる」をクリックします。
  • ディスクイメージをアンマウントするために、Finderのサイドバーから「Soundflower」を右クリックし、「取り出す」を選択します。
  1. 再起動:
  • Soundflowerのインストールを完了するために、Macを再起動します。

Soundflowerの設定手順

  1. サウンド設定の変更:
  • Macが再起動した後、「システム環境設定」>「サウンド」>「出力」タブを開きます。
  • 「Soundflower (2ch)」を選択します。
  1. QuickTime PlayerまたはAudacityの設定:
  • QuickTime Player:
    • QuickTime Playerを開き、「ファイル」メニューから「新規オーディオ録音」を選択します。
    • 録音ボタンの右側にある小さな下向きの矢印をクリックし、入力デバイスを「Soundflower (2ch)」に設定します。
  • Audacity:
    • Audacityを開き、「Audacity」メニューから「環境設定」を選択します。
    • 「デバイス」セクションで、録音デバイスを「Soundflower (2ch)」に設定します。

YouTubeの音声を録音

  1. YouTubeビデオの再生:
  • YouTubeで録音したいビデオを開き、再生します。
  1. 録音開始:
  • QuickTime PlayerまたはAudacityで録音ボタンをクリックして録音を開始します。
  1. 録音停止:
  • 録音が終わったら、再び録音ボタンをクリックして録音を停止します。
  1. 録音ファイルの保存:
  • 録音したファイルを適当な名前で保存します。

この手順でSoundflowerをインストールし、YouTubeの音声を録音することができます。

ChatGPTいわく、「Soundflower」は、システムの音をキャプチャするために必要な仮想オーディオデバイスである。

あとは実行していくだけで、Youtubeの動画を再生しつつ音声だけを録音できた。otterというサービスで文字起こし.txtとしてエクスポートし、GPTにテキストを投げて、英語と併記しながら翻訳させることができた。

otterはaudio to textのAI使っていると思うけど、話者変更がそもそも実装されていて、WebMTGツールやSlackとの統合がされているサービスだった。この程度のものはどんどん作られるから自分でつくる必要はない。AI動かして自分で色々ワークフロー連携して、というのはプログラマなら面白がって自分でやるかもしれないが、普通はかなりめんどくさいのでやらない。欲しいサービスとわかりやすいUIをつくって裏でAI動かしているようなWebサービスはたくさんあるだろう。どんどんできている。それで金も取れることになっているから早くやって囲ったモン勝ちになっているだろう。

一番いいのは英語のリスニングができることかもしれないが、英語の情報に触れるハードルが下がっていることはありがたい。字幕が出ない英語の動画でも読解していこうと思えばできる。

ほとんど考えずに思いついたこと、やりたいと思ったことをやれるようなインターフェースができていっているのを感じる。テキスト打つのはだるい、声で伝わればよい。しかも自然な日常言語でてきとうに話しかけてもちゃんと解釈されるのはコンピューターを使う体験をかなり変える。iOSにOpen AIのChatGPTが統合されたらどうなるんだろうか?