本研究では、文字列検索技術を基盤として翻刻知識を利用し、擬似コードを用いた高度なテキスト解析を確立することにより、翻刻知識の共有による翻刻者の協働作業を可能とし、高機能、高精度な翻刻支援システムを構築することを目標とする。 この目標を達成するために、平成25年度は、(1)入力補完のための翻刻候補の提示技術と翻刻エディタの開発 (2)N-gram共起頻度に基づく文書画像上でのテキスト解析技術の2つの研究課題を遂行した。 (1)入力補完のための翻刻候補の提示技術と翻刻エディタの開発:H24年度に開発した文書画像全文検索のための検索Webサービスに対し並列処理による高速化を図り、5文字の検索文字列の場合に平均100msecでの応答が可能な検索サーバ構築を行った。 これにより、翻刻範囲の指定と同時に動的にバックエンドでの検索を行い、ほぼタイムラグ無く翻刻候補を提示することが可能となり、動的に順位付けされて表示される翻刻候補を見ながら翻刻範囲を決定できる翻刻エディタを実現した。 (2)N-gram共起頻度に基づく文書画像上でのテキスト解析技術:国立国会図書館にて公開されている近代デジタルライブラリーの文書に対して頻出語抽出のための技術を開発した。具体的には、異なるフォント間の差異を吸収して検索を実現するための文字画像特徴量の特徴空間における近傍構造に基づいた擬似コード生成手法を開発し、2-gram検索精度評価にて平均適合率80%以上を達成し、N-gram頻出語の抽出を可能とした。
|