2017年4月8日土曜日

くずし字OCR

今週、伝わってきたニュースの一つには、慶応大学所蔵の奈良絵本のデジタル公開があった。公開の日付は4月6日、同大学のメディアセンター(図書館)所蔵の貴重書が一気に同時アクセス出来るようになり、中でもとりわけ「奈良絵本コレクション」がリストアップされている。サイトの解説には「50点あまり」とあるが、数えてみれば、あわせて110冊/巻、62タイトルである。大いに歓迎し、喜ぶべきことである。

この公開の中で、一際目を惹いたのは、単なるデジタル画像に止まらず、公開作品の一部だが、変体仮名全文に電子テキストが添えられていることである。解説では、これを「透明テキスト付PDF」と呼び、しかも「くずし字OCR(凸版印刷)の技術」によるものだと明記している。OCR(自動文字認識)は、ここにようやくと大型古典文献の公開に加わることになった。記念すべき大きな一歩である。

くずし字OCRについて、これまでずっと関心を抱いている(自動変換)。今度の公開についての詳細は、いずれ開発者やサイト構築関係者が正式に公表してくれるものだと想像している。そのような記述を待ちながら、ここに一読者としての観察を記しておきたい。

公開された奈良絵本は、どれもPDFファイルと高精細画像という二つの表示方法が用意され、ただ透明テキストが付いているものとそうでないものの区別は、特別に明記されていない。なんらかの公開方法による考慮からだろうか、ほぼ半分ぐらいのタイトルはPDFファイルにおいて白黒の画像だけ用いられ、それには電子テキストが添えられていない。一方では、電子テキストありのファイルとなれば、画面上をマウスで任意の行などを選ぶと、文字単位に付け加えられ、サイズや配置が違う枠が現われ、その分の文字をコピーしたり、貼り付けしたりすることができるようになっている。変体仮名で記された画像がいまやスタンダードなパソコン処理に対応してくれることには、少なからずの興奮を覚えざるをえない。

この電子テキストは、どこまでOCR技術に頼っているか、すぐには不明だが、かなりの精度をもつものであり、慎重な編集、校正のプロセスを経たと思われる。極端な実例を上げれば、「雨わかみこ」にみるシミが付いている文字(No.14終わりから5行目)、枠から完全に外れた文字(No.10終わりから3行目)などは正しく表記されている。それから、「もんしゆ姫」にみる「州」(No.9、5行目)、「森」(No.17、終わりから3行目)、「雪」(No.23終わりから3行目)などの異体字や癖のある書き方は、OCR認識に対応されているとは考えにくい。対して、二文字分の踊り字の表記は、電子テキストにおいてつねに悩ましい問題だが、ここではすべて「く」としている。混乱を招きかねない解決法であり、せめて「ゝゝ」か「々々」としてほしいものである。

「慶應義塾大学メディアセンターデジタルコレクション」は、大きな資料群の電子化と共に、新たな基準を示している。このブログでも、さっそく「注釈付き奈良絵本研究書デジタル底本」の内容を更新した。

奈良絵本コレクション(慶應義塾大学)

0 件のコメント: