2022年1月29日土曜日

次世代ライブラリー

今週、SNSで盛んに交された話題の一つは、国立国会図書館が「次世代デジタルライブラリー」を公開したことだ。これまでにデジタル化された著作権フリーの書籍を対象に、全文テキスト検索や画像検索の機能を一般のユーザーに提供するものである。専門分野の研究者から一般の読者までみんな興奮してこの知らせに接している。

さっそくあれこれと試してみた。NDL Labサイトから、いまは一番目に上げられている「次世代デジタルライブラリー」を選び、「Next Digital Library」に入る。提供されているのは、キーワードと画像という二つの検索方法なのだ。

言葉による検索は、今度の公開の最大の目玉だ。対象書籍をOCRにかけて電子テキストにし、それを検索対象とするということだ。ただなによりもその分量なのだ。自分にとってのキーワード、あるいは漫然と思いつい言葉をシステムに入れ、ほぼどれもかなりの分量のヒットが戻ってくる。中にはまったく意識しなかった分野の書物も多く、つい夢中になる。個人的にとりわけ感心したのは、ヒット項目をクリックして開く書籍閲覧の画面に、「Full text of this book」が用意されたことだ。これをクリックすると、書籍全体のテキストファイルがまるごとローカルのパソコンに保存される。ページごとに一つずつのファイルになって、じっさいに使用するにはもうすこし加工が必要だが、閲覧画面とあわせて使えば、たいへん貴重なリソースが手に入ったことになる。

一方では、テキスト検索のヒット画面に、「Illustrations in this book」と、同じ書籍に含む画像を提示し、さらにテキスト検索と同列に画像検索の機能が用意されている。だが、この検索は、現時点では稼働はするが、さほど使いものにならない。試しに公開資料である『前九年絵巻物』から馬の画像を一つ切り出して検索に掛けたら、ヒット作は、数こそかなりのものが戻ってきたが、その内容は、美人から古地図、植物などに及んだ。目を凝らして探してようやく同じタイトルが混じっていると確認できたが、検索にかけた場面ではなかった。

このライブラリーは、「国会図書館の実験的なサービス」の一つであり、しかもいまのところ、すべてのページが英語のみとなっていて、日本語に切り替えるボタンが見つからない。まだまだ試運転だということが分かる。一人の利用者としては、この方針がむしろ大歓迎だ。もっと多くの驚きや喜びがきっと待っていると信じてエールを送りたい。

0 件のコメント: