シーズン2 第15回 
機械が「読む」
—— OCR という技術 
尾山 慎

本書内では語り尽くせなかった、あふれる話題の数々をここに紹介します。
コラム延長戦!「文字の窓 ことばの景色」。

 

読むという行為の難しさ

 「読む」とは何か。私たちはそれをあまりにも自然に行っているため、あらためて問い直すことが少ない。しかし「読む」とは、視覚であれ触覚であれ、何らかのかたちで受け取った記号を、単なる線や点の集まりとしてではなく、「意味をもつことば」として理解する営みである。紙に印刷された文字を目で追うこともあれば、点字の凹凸を指先でたどることもある。あるいは音声読み上げを通して文字情報に触れることもあるだろう。媒体や感覚の通路は異なっても、そこに共通しているのは、記号を言語として受け取り、世界と結びつける働きである。さらにその意味を統合し、文脈の中で解釈し、自らの知識や経験と結びつける行為でもある。「読む」ことは、視覚処理だけでなく、記憶、推論、予測、言語知識が総動員される、とても高度な知的活動なのである。図形を意味へと変換し、意味を文へと束ね、文を思想へと組み立てる。この一連の過程を、私たちはほとんど無意識のうちに遂行している。しかも日常普段において、である。
 同時に、「読む」という能力は生得的なものではなく、文字文化の中で訓練され、歴史の中で形成されてきた文化的能力でもある。人類は文字を発明して以来、この技術を磨き続けてきた。「読む」とは、目の前に存在しない他者の思考や遠い時間の情報を、視覚的記号を通して現在に呼び戻す行為であるともいえる。それはもはや単なる作業ではなく、文明そのものを支える基盤的能力だといっていい。
 しかし、この「当たり前」の営みを機械にさせようとすると、途端に困難が立ちはだかる。人間にとって自明である文字の書かれている方向(縦書き、横書き(右進行、左進行))、文脈の補完、意味の推測は、機械にとっては「自明」ではない。だからこそ、「読む」という行為を模倣させる試みは、人間の知性の構造そのものを問い直す挑戦となる。ここに挑んできたのが、OCR(Optical Character Recognition:光学文字認識)という技術である。

OCR 進歩の歴史

 OCR の起源は意外に思われるかもしれないが20世紀前半にまでさかのぼる。もう100年近く前にもなるが、1930年代、先駆的試みとして、視覚障害者のために文字を読み上げる「読書機械」が欧米で考案された。装置は非常に大がかりで、特定の活字書体にしか対応できなかったが、「機械が文字を読む」という発想そのものが、実に画期的であった。当時はこうでんかんというのを用いて文字の形状を電気信号に変換する方式が主流であり、現代のデジタル処理とは比較にならないほど制約が多かった。しかし、文字認識を機械化しようとする構想が、すでにこの時代に芽生えていたというのは驚きではないだろうか。

 1950年代から60年代にかけては、銀行の小切手処理のために MICR(磁気インク文字認識)が実用化され、文字の自動判読技術は産業インフラの一部となった。戦後の日本でも、高度経済成長とともに大量の郵便物処理が必要となり、郵便番号を自動で読み取る装置が導入された。これは印刷された数字を OCR で判別し、自動的に郵便物を仕分ける仕組みである。人手では膨大な時間を要する単純作業が、機械によって高速かつ安定的に処理されるようになり、OCR はどんどんと社会的実用性を確立していった。ただ、個人の手元でそれが可能になるまでにはまだまだ時間が必要だった。技術としてはあるが、大衆化するには時間がかかるのである。
 余談だが、1980年代に SONY のゲーム機、初代プレイステーションは作ろうと思えば作れた、という話がある(実際には1994年発売)。これはあながち間違いではない。3D ポリゴン描画も、CD-ROM も、高性能 CPU も、1980年代にすでに存在していた。大学や研究所には家庭用ゲーム機をはるかに超える性能のワークステーションが置かれていたからである。ただし問題は、「この世にすである」ことと「家庭に届く」ことの違いだ。1980年代の高性能機器はひたすら巨大で、とんでもなく高価だった。ということで、仮に作れても、たとえば1台2,000万円もするゲーム機を、販売できるはずもない(全く「家庭用」ではない)。プレイステーションが革命だったのは、技術を新たに発明したからというより、それらを小型化・集積化し、大量生産によって手の届く価格にまで落とし込んだからである。1980年代にプレイステーションと同様の処理ができるゲーム機があるとしたら、それは「ビルの一室を占拠する研究施設」のような規模だっただろう。
 技術はしばしば、可能になった瞬間ではなく、日常世界、庶民の手に渡ったとき、世界を変えるのだ。いまや OCR は多くの人の手のひらに入るサイズの機械に備わっている——そうスマホだ。

話を戻そう。
 英語やフランス語など、西洋での OCR 開発が主に対象としたのは横書きアルファベットであった。文字種が比較的限定され、単語間に空白があるという構造は、機械処理にとって有利であった。これに対し、日本語はひらがな・カタカナ・漢字という複数の文字体系を併用し、さらに縦書きと横書きが併存する。加えて、語と語の間に必ずしも空白が入らない。この複雑さは、OCR 開発において本質的な困難をもたらした。機械にとって「文字が横に並んでいるのか、縦に積み上げられているのか」を判断すること自体が容易ではないのである。新聞紙面のように縦書き本文と横書き見出しや広告が混在する場合、まずレイアウト解析(レイアウト認識)を行い、ブロック単位で方向や領域を特定する必要がある。人間にとっては一目で理解できる紙面構造も、機械にとっては非常にやっかいな推論の対象となるのである。このレイアウト解析は現在でも研究が続く分野であり、特に歴史資料や古典籍のような不規則な版面ではまだまだ、難易度が高い。

 1970年代から80年代にかけて、OCR はデジタル画像処理技術の発展とともに進歩し、一定の書体に限れば印刷文字を自動的に高精度で読み取れるようになった。テンプレートマッチングや特徴量抽出といった手法(あらかじめ用意した文字の「見本」と画像を照らし合わせて一致度を測る方法や、線の向き・交点・輪郭の形など文字を特徴づける要素を数値として取り出す方法)が用いられ、商用ソフトも登場した。しかし、フォントの違い、印刷のかすれ、文字の傾き、ノイズ(汚れ、シミ)などに弱く、認識精度には限界があった。1990年代以降は、統計的パターン認識やニューラルネットワーク(人間の脳の神経細胞の働きを模倣した機械学習モデル)が導入され、文字形状だけでなく文脈情報を考慮する手法が広がった。日本語では形態素解析や辞書照合(文章を「意味をもつ最小の単位=単語や語のまとまり」に分けて、その並びが自然かどうかを辞書と照らし合わせて確認する処理)を組み合わせることで誤認識を補正し、実用水準が大きく向上した。

そして現代——図形認識を超えた技術

 21世紀に入ると、AI のディープラーニングの発展により OCR は飛躍的進歩を遂げた。大量の画像データから特徴を自動学習することが可能となり、手書き文字や写真中の看板文字、湾曲した文字列なども高精度で認識できるようになった。現在では、スマートフォンのカメラを通じて撮影した文字を即座に抽出し、翻訳や検索に接続することが日常的に行われている。クラウド上での高性能 OCR の利用も一般化し、歴史文書のデジタルアーカイブ化や大量文書の全文検索も可能になっている。

 OCR の歴史は、人間の「読む」という能力をいかに機械的処理へと翻訳するかという試みの連続であった。単なる図形認識ではなく、文字体系、書字方向、レイアウト、文脈、言語知識といった複数の層を統合しなければならない点に、この技術の難しさがある。特に日本語 OCR は、「縦書き」「文字種の多様さ」「空白の欠如」という独自の難題を抱え続けてきた。この事実は、文字が単なる記号列ではなく、文化的慣習と歴史的形成を背負った存在であることを示している。OCR の進歩は単なる技術史ではない。それは、「読むとは何か」「文字とは何か」という問いを、機械という鏡を通して照らし返す文明史・文化史でもある。

 

次回更新は3月15日頃の予定です。

 


著者紹介

尾山 慎(おやま しん)
奈良女子大学教授。真言宗御室派寳珠院住職。
著作に『二合仮名の研究』(和泉書院、2019)、『上代日本語表記論の構想』(花鳥社、2021)、『日本語の文字と表記 学びとその方法』(花鳥社、2022)。

シーズン2 第14回 果てしない数字の単位——感覚を超えた世界