2013 年度実績報告書

文書画像全文検索技術を基盤とする古文書画像翻刻支援システムの研究

研究課題

研究課題/領域番号	24700156
研究機関	北海道大学
研究代表者	猪村元北海道大学, 知識メディアラボラトリー, 特任助教 (70615210)
キーワード	文書画像処理 / 画像情報処理
研究概要	本研究では、文字列検索技術を基盤として翻刻知識を利用し、擬似コードを用いた高度なテキスト解析を確立することにより、翻刻知識の共有による翻刻者の協働作業を可能とし、高機能、高精度な翻刻支援システムを構築することを目標とする。この目標を達成するために、平成25年度は、(1)入力補完のための翻刻候補の提示技術と翻刻エディタの開発 (2)N-gram共起頻度に基づく文書画像上でのテキスト解析技術の2つの研究課題を遂行した。 (1)入力補完のための翻刻候補の提示技術と翻刻エディタの開発：H24年度に開発した文書画像全文検索のための検索Webサービスに対し並列処理による高速化を図り、5文字の検索文字列の場合に平均100msecでの応答が可能な検索サーバ構築を行った。これにより、翻刻範囲の指定と同時に動的にバックエンドでの検索を行い、ほぼタイムラグ無く翻刻候補を提示することが可能となり、動的に順位付けされて表示される翻刻候補を見ながら翻刻範囲を決定できる翻刻エディタを実現した。 (2)N-gram共起頻度に基づく文書画像上でのテキスト解析技術：国立国会図書館にて公開されている近代デジタルライブラリーの文書に対して頻出語抽出のための技術を開発した。具体的には、異なるフォント間の差異を吸収して検索を実現するための文字画像特徴量の特徴空間における近傍構造に基づいた擬似コード生成手法を開発し、2-gram検索精度評価にて平均適合率80%以上を達成し、N-gram頻出語の抽出を可能とした。

研究成果
(1件)

すべてその他

すべて備考 (1件)

[備考] Transmedia文書画像検索システム
- URL
  http://www.meme.hokudai.ac.jp/tramsmedia/