音声のテキスト化で2つの方法--リアルタイムならGoogle Documents，キャプチャ後ならVrewで字幕化が便利そう

音声のテキスト化（音声認識，自動字幕）で遅れを取っていることを報告した　音声認識から翻訳，そして字幕入りの動画制作環境にすっかり取り残されてしまっていた件 - jeyseni's diary (hatenablog.com)　2022/5/3。とりあえず，2つの方法について整理しておくことにする。

　たとえばZoom会議の流れを，主催者が録画したファイルがあるとする。これをテキスト起こしして議事録に仕上げようとした場合は，自動字幕化ソフトのVrewが良さそうである。これまで，手で要点をメモっていたのだが，書き取ったキーワードがだれの発言だったか，結構迷うことがある。○○さんがコメントしたな，と思っていても，実は違ったりする。画像ファイルをVrewで開いて自動字幕にすると，そのコメントを発言した話者がだれか，すぐに分かる。Vrewは，字幕部分を一気にテキストとして出力もできるので，テキストエディタやWordなどで整理するのも簡単だろうと思われる。

　一方，リアルタイムに音声をテキストファイル化したい場合は，Google DocumentsとGoogle 音声認識を使ってパソコンから流れる音声をテキスト化するのが便利そうである。Google Documentsにはツールメニューの中に「音声認識」が用意されている。パソコンのローカルのテキストエディタやWordなどを使ってもいいが，IMEを音声認識に変更しなければならない。Google Documentsならその必要がない。

　1つだけ設定変更するのが，システムの設定の「サウンドの設定」において，「録音」タブの「ステレオミキサー」を「既定のデバイス」に指定することである。通常の音声認識がマイクロフォンからの入力を拾うのに対し，ステレオミキサーにするとパソコン内の音を入力として使うことができる。Youtubeで再生した音声も，このステレオミキサー経由でGoogle 音声認識でテキスト化できる。ただし，zoom会議中はマイク入力を既定のデバイスにしておかないと，自分の声が会議につながらなくなるので，注意が必要である。聞きっぱなしのオンライン授業や，Webセミナーなどは，この方法でテキスト化すると，メモを取らなくても良さそうである。

　また，英語での講演なら，Google翻訳の画面でリアルタイムに英語のテキスト化と日本語同時翻訳を設定すると，理解が一気にできる。ただし，Google翻訳は1回に5000字しか受け付けないので，早口な人だと10分ごとぐらいに内容を保存して入力ボックスを空にしないと次が取り込めなくなる。録画・録音も同時にしておいて，後でテキスト起こし処理をする構えも必要である。

　英語は嫌いではないが，ネイティブでもバイリンガルでもないので，頭で考えながら聞くのはそれなりに負担になる。かつて，普通の英文を単語ごとに逐語訳変換する方法を考えて，翻訳用の突き合わせ辞書で置き換える仕組みを考えたことがあったが，時間がかかるばかりで結果は惨憺たるものだった。パソコン用の複数の翻訳ソフトも試してみたが，どれもまともな日本語を出したものはなかった。初期のGoogle翻訳で軽くそのレベルを越え，その後のパターン認識方式，さらに現在のAI方式に進化して，十分意味のある日本語訳が提供されるようになったと思う。

　これにGoogleの同時翻訳とVrewの自動字幕が加わり，新しい段階に入ったと感じている。正直，テープ起こし業や同時通訳業は厳しい時代になったと思われるし，音声合成まで入れればアナウンサー業も安泰ではなくなった。さらにAI技術を駆使したディープ・フェイクの画像，音声，動画が広がりつつある。詐欺に対抗する音声技術の開発も必要になるのかもしれない。