jeyseni's diary

「ジェイセニ」と呼んでください。批判ではなく提案をするのが生き甲斐です。

生成AIに引用文献整理と画像からの文字認識をさせてみた--繰り返し作業には使ってもいい

筆者は,とにかく生成AIには大反対派である。おそらく,こんなブログなど,生成AIなら数秒で書いてしまうだろうが,頭で考えたり,試行錯誤して作り上げる芸術などの仕事を生成AIにさせるのは,自己否定,人間否定だと思っているからである。

 ところが,世の中には厄介な作業がある。特に出版社という文字を扱う仕事上で,時間ばかりかかるのが,文章整理と文字認識である。

 おそらく,世の中の校正,校閲作業に生成AIを利用すると,劇的に整理が早く完成すると思う。校正ルールという膨大な辞書的なものを,パターンとして認識して整理することができるからである。

 たとえば動詞の送り仮名の統一など,これまで自動化するためには個々の動詞について辞書を作り,検索して置き換える,といった作業を繰り返させれば実現できた。ある程度,パターン化できるようであれば,「正規表現」でグループ化して変換すればほぼ確実に整理できた。ただし,一瞬というわけにはいかず,数分~数十分もかかる場合もある。

 一方,引用文献の書式の整理は,意外に厄介である。学術論文の場合,参考文献を列挙するのに,現在の多くの研究者は「文献整理ソフト」を利用して情報を蓄積し,論文を発表するジャーナルが求める形式にまとめて出力すれば,同じ書式でまとめることができる。ところが,その出力形式が出版社のルールと合っていなかった場合,これを修正するのは,基本は手作業になる。10本程度の参考文献なら何とでもなるが,これが50本,100本など,膨大な数の文献になると,さすがに嫌になってくる。

 筆者もこれまで,文献を途中で区切ってバラバラに格納し,これを組み立て直して求める書式に変換する仕組みを自作して使っていた。しかし,結局,書式変更は一度きりなので,時間が掛かっても手作業で直した方がスタイル的には誤りが少ないのだが,ピリオドやカンマなどの打ち間違いが発生しないとは限らない。

 ところが,これをChatGPTやCoPirotなどの生成AIに元の一覧をペーストし,「文献を●●形式に変換してください」とプロンプトを入れるだけで,ほぼ完璧な書式変換ができた。さすがに本数が多かったり,中に日本の文献や書籍が入ったりする場合は,微妙にスタイルと外れる可能性はあるが,手修正の手間を大幅に減らすことができた。

 もう1つ試したのは,画像で入手した文字の読み取りである。きっかけは,Google DeepMind、古代碑文を復元するAI「Aeneas」を発表 - ITmedia AI+ (2025/7/24)という記事だった。古代文字を読んで,欠けている部分も捕捉して解読できるというのである。

 一般に,文字が画像になっている場合,利用するのはAdobe AcrobatOCR文字認識機能である。画像をPDFに変換した後,文字認識させるとかなりの文字を読み取ることができる。これまでもさんざん利用してきたが,100%は無理で,特にコピーやファクスなど,ノイズの多い文字を記号として読み違えたりしていた。また,言語が日本語や英語が混じっている場合,認識精度は落ちる。さらに書体によっても認識精度は異なり,ゴシック体の文字は苦手なことが多かった。

 全部で6段に分かれたリスト表を読み取ってみた。オリジナルはPDFだったが,中身は画像だった。細かい字だが,人間の目では十分に読み取れる内容だった。

 まずAcrobatを使って文字認識をさせたが,6段のうち一番右の段はそれなりに認識したが,あとの5段は読み取る方向が無茶苦茶で,まったく認識できなかった。6段を1段ずつバラバラにしたところ,いちおうそれぞれは読み取れたが,正答率は50%ほどだった。

 この読み取りにCoPirotを試してみた。「PDFの内容を読み取ってください」とプロンプトを書いたところ,1回目は全体の左から3段分を読み取った。文字数が多いのか,ファイルサイズが大きいのか,このまま続けるかどうかを聞かれたので,今回はお試しということでここで中止した。しかし,その読み取った内容は,実に正確で,日本語も英語も完璧に読み取っていた。どこまで試していいものか,わからなかったので,実験はそのままになっているが,正確さには驚いた。

 ちなみに,同じファイルをgoogle lenzで読み取ったところ,こちらは元言語を指定するとその言語の行を読み取るが,英語の部分は日本語に翻訳して表示してしまった。文字の意味を知りたいのではなく,文字をそのまま読み取ってほしいので,OCRとしては使えないと感じた。

 これまで,Acrobatで認識できなかった部分は,目で見て手でタイプするしか方法がなかったが,生成AIでの文字読み取りは,おそらくかなりの文字に対応できると感じた。ただし,手書きの文字の認識はうまく行かなかった。

 ここからは想像だが,警察の科学捜査において,筆跡鑑定や人物の特定といった用途にも,ひょっとしたら生成AIの画像認識は役立つかもしれない。