2015年8月1日土曜日

自動変換

いわゆるくずし字の自動変換は、8年ほど前一度ちょっとした話題になった。あのころの主役は、グーグル。ただどうやら理想論に止まり、あれから以来特別になんらかの進展が報告されることはなかった。やはり商業ベースに取り掛かるほどのことはないのかと、すこぶる残念だった。そんな中、京都滞在の間には、同じ目標を目指して、新たなシステムが開発されたとのことが伝わり、周りではかなり議論された。

20150801「くずし字自動変換」システム開発成功として、NHKがゴールデンタイムで報道した。使われたサンプルの文献は、木版印刷のもの、デジタル化されたものを取り入れて、やく8割程度まで自動的に現代の文字に置き換えてくれて、実用性があるとしている。OCR技術がこれだけ成熟した今ごろの技術をもっていても、2割も認識不可を持ち続けることは、考えてみれば、ちょっぴり意外だと言えないこともない。あるいは「くずし字」という捉え方が広すぎて、真剣に時代やジャンルを限定して取りかかれば、もうすこし道筋が明らかになるのかもしれない。なお、ここに「変換」「判読」という控えめな言葉選びが深い意味を持っていると思われる。書かれた文字が現代のそれに置き換えられたからと言って、それによって記された内容まで明らかになることを意味せず、解読されるにほど遠い。よっぽどの予備知識がなければ、平仮名続きの文章に対面して、かなり頭を抱えるものだろう。そういう意味では、同じ報道に接して交わされたコメントなどは、一様に脳天気なものだった。

しかしながら、ここまで取り上げたNHKの番組だが、いくら見なおしても、肝心の開発会社の名前は、どこにも出ていない。責任者の顔と個人名があるのに、その所属はあくまでも「システムを開発した会社」となっている。さらに検索などを続けて、ようやくオンラインで公開されている東京テレビ番組録画に辿りつき、字幕で非常に小さく「凸版印刷」との名前があった。主語を持たない日本語云々の議論は繰り返されて久しい。それを地で行くような、ここまで人為的に操作された報道番組を見て、やはり不思議だと感ぜずにはいられない。

「くずし字」を最新技術で自動解読
くずし字を判読

0 件のコメント: