jeyseni's diary

「ジェイセニ」と呼んでください。批判ではなく提案をするのが生き甲斐です。

音声認識から翻訳,そして字幕入りの動画制作環境にすっかり取り残されてしまっていた件

筆者は,いまだにキーボードでポチポチと文章を入力するのが仕事である。ただ記者時代のような執筆の仕事はなくなったので,他人の原稿をメディアにとって正しいスタイルの文章に修正して,市場に送り出すまでの編集業務に携わっている。ある意味,定型的な仕事,単純な仕事なので,なるべくコンピューターに仕事をさせ,自分は楽をする方法を日々考えている。

 かつて,セミナーの企画・運営の仕事をしていたとき,特に海外からの講演者の講演を日本の視聴者にいかに伝えるかについては,いろいろ悩んできた。英語の聞き取りには比較的自信はあったが,専門用語をまくし立てる講演者の話に付いていくのは並大抵ではなかった。同時通訳を手配し,インカムで日本語で聞いてもらう手配もしたが,その場でチェックしても話者の内容の1/3ぐらいをすっ飛ばして訳していることもあり,不満だった。それなりに高い通訳料を払っているのにも関わらずの結果だったからである。

 講演をまとめて1本の記事にするにあたっては,すべて録音し,このテープ起こしを外注し,上がってきた日本語テキストを編集する,という流れも多かったが,外注では数日かかることと,やはり専門用語の聞き取りと翻訳にミスが目立つことが多かった。

 結局,本数が少ないときは,自分で録音テープを聞いて英語の文章を起こし,これを頭で翻訳しながら日本語の文章にする,という作業をしていた。テープの同じ個所を何度も何度も聞き返し,プレゼン資料と見比べながら専門用語を認識する,という作業はやはり苦痛だった。夜中まで使ってテープ起こしに丸1日かかることも珍しくなかったが,出来上がった英語の原文を見れば,あとはストーリーを日本語化するのは問題なかった。

 英語の講演の同時通訳をコンピューターで行うことを考えたのは言うまでもない。しかし20年前は,不特定話者の音声認識ができる仕組みがなかった。話者本人の声で複数の文章を読んでもらい,それをベースにコンピューターが音声認識する,という特定話者音声認識という仕組みしかなかった。それも精度は著しく悪かった。結局,講演者以外の人間が講演者の発言と同じことをオウム返しでマイクに対して話し,これをコンピューターが音声認識する,という方法の方が精度は高まるが,それでも100%完璧ではなかった。

 音声認識は,英語の場合は単語単位で分離できるので,欧米の方が進んでいた。日本でも,大学やコンピューターメーカー,カーメーカーなどがこぞって日本語音声認識の研究をしたが,たとえばカーナビとか,議会の議事録とか,特定用途では何とか実務に堪えられたが,一般向けにはほとんど使えなかった。筆者も,パソコンレベルでマウス操作レベルのコマンドを音声コントロールすることや,数字の入力などは実現していたが,とても普通の会話を聞き取るような使い方はできなかった。

 その後,2010年にGoogleが音声による日本語を含むマルチ言語の入力インタフェースを開発した。不特定話者の会話をリアルタイムで漢字かな混じり変換していく様子には,度肝を抜かれた。スマホでもこの音声入力は使える。テレビのスピーカーの前にスマホを置いてニュースを流せば,ニュースで読み上げた文章がテキストとして取得できる,という実験も行った。日本以外の言葉も,韓国語でも中国語でも,何でもほぼ読み取れた。

 2020年を越えた現在,話はさらに進歩している。1つは,Google翻訳においてリアルタイムで同時翻訳が実現できていることである。Google翻訳は画面の左右の2つのボックスがあり,左側の原文入力をGoogle音声入力としてマイクからの音を入れ,右側の翻訳枠を例えば日本語に設定すると,話者が英語で話した内容が原文ボックスに音声認識されてテキストで表示されるのとほぼ同時に,右のボックスに翻訳された内容が表示される。しかも,最初は聞き取りミスがあった部分でも,しばらくすると前後関係から類推して正しい単語に置き換え,その置き換えに基づいてさらに訳文も修正される,という様子が見える。かつてシステム構築を見積もったら1000万円と言われたことが,眼の前のパソコン上で簡単に実現しているのである。

 もう1つが,動画の自動字幕入れ機能である。Google音声入力によって,講演のテキスト化と翻訳はできたが,これを動画の字幕として画面に組み込もうとすると,高額な映像編集システムを使うという大変な作業になっていた。映像と音声を聞きながら,それにタイミングを合わせてテキストをはめ込んでいくという作業は,基本的に手作業だった。そもそも動画を扱えるソフトがプロ用しかなく,したがってそのソフトが動くコンピューターも大容量のメモリーと大容量のハードディスクと高速処理ができるCPUを搭載したとんでもない仕組みが必要だった。いわばテレビ局並みの装備が必要だった。手持ちのパソコンでも時間をかければできないことではなかったが,編集に半日,データの合体出力に夜中いっぱい,などということも珍しくなかった。まったく非効率的な仕事で自分で試したのは1,2回ぐらいで,あとはプロに任せざるをえなかった。

 カラオケの映像を作るソフトで,何秒から何秒までこのテキストを表示する,といういわゆる字幕フォーマットを作って読み込ませればできないこともなかったが,そもそもこの「何秒から何秒まで」を一覧表で用意するのが実に面倒だった。

 これがいとも簡単にできるのを知ったのが,つい1週間ぐらい前の話である。

 まず,Youtube。再生時に「字幕をオン・オフ」する機能があることを知った。さらに,自分で作成した動画をYoutubeにアップロードして字幕作成を指定すると,勝手に字幕を付けてくれることを知ったのである。さすがにすぐに付けてくれるわけではなく,英語や日本語の場合,30分ぐらいのファイルだとアップして1時間後ぐらいには字幕機能が使えて表示できるようになった。まずこれには驚いた。

 このYoutubeの自動字幕作成機能が,いつ字幕が出来上がるのかが残念ながら予想ができない。中国語の音声でも字幕が作れるはずなのだが,3分ぐらいの動画ファイルでも丸1日経っても字幕は現れなかった。そこで,ソフトやWebサービスで代わりの機能を探したところ,「Vrew」というソフトが動画からテキストを文字変換して字幕として自動的に画面に入れてくれるのを知ったのである。Vrewについては,また別稿でご紹介したいと思っている。

 筆者はYoutuberになる気もないし,人様にお見せできるような動画を提供できるとも思っていない。Youtubeは,テレビドラマをときどき見たりするだけで,特にソフトの使い方の紹介動画や料理の紹介動画などは基本的に見ないようにしていた。見始めると何十分も時間がかかるし,不必要な情報も多いと思っているからである。文章と写真にこだわっているのも,そのためである。そのさまざまな紹介動画に,テロップが入ったり,大きな文字が入ったりして,画像加工にずいぶん時間がかかっているなと思っていた。しかしこの2つの方法で字幕を入れる作業は,あとの文字修正をするだけでほとんど手間がかからない。しかもスマホだけでも簡単に無料で動画編集・作成ができるアプリがどんどん作られている。なるほど,動画制作の環境がこれほど劇的に変わっているのかと,改めて思い知らされた。すっかり取り残されたなと思った次第である。

 ちょうど大型連休に入り,いろいろな動画・音声素材で字幕入れや翻訳などのテストをし始めたところである。まあ,筆者の続報を見なくても,検索で「自動字幕」でさまざまな情報が出てくる。というのは,釈迦に説法かもしれない。