• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実施状況報告書

文書画像全文検索技術を基盤とする古文書画像翻刻支援システムの研究

研究課題

研究課題/領域番号 24700156
研究機関北海道大学

研究代表者

猪村 元  北海道大学, 学内共同利用施設等, 特任助教 (70615210)

研究期間 (年度) 2012-04-01 – 2014-03-31
キーワード文書画像検索 / 画像情報処理
研究概要

本研究では、これまでに確立した基本文字列検索技術に加えて、翻刻知識を利用し、擬似コードを用いた高度なテキスト解析を確立することにより、翻刻知識の共有による翻刻者の協働作業を可能とし、高機能、高精度な翻刻支援システムを構築することを目標とする。この目標を達成するために、平成24年度は、(1)翻刻データの蓄積によるキーワード検索の精度向上、(2)入力補完のための翻刻候補の提示技術の二つの研究課題を遂行した。
(1)翻刻データの蓄積によるキーワード検索の精度向上: 劣化印刷文書画像や手書き草書体古文書画像へ適用可能な全文検索技術をもとに、これを汎用プロトコルに準拠したWebサービスとして検索サーバの構築を行った。さらに翻刻データを蓄積・共有することで、既存の検索技術の検索精度を向上させる技術の研究開発を行った。具体的には、ユーザが画像上で翻刻テキストを入力した際に、文書画像上での文字列の位置情報とユーザが入力した翻刻テキストをサーバに送信し、蓄積する。これらの蓄積された翻刻データを用いて、HMM学習による適合性フィードバックを利用した検索精度の向上技術を確立した。特に、日本語文書の場合には1文字、2文字のキーワードに対処する必要があるため、1文字に対する10位までの平均順位正答率を、現在の0.43から、3文字に対する正答率に近い0.78まで向上させた。
(2) 入力補完のための翻刻候補の提示技術: 課題(1)にて開発した技術を利用して、翻刻候補の提示技術を開発した。具体的には、GUI上で対話的に検索、翻刻テキストを入力して翻刻作業が可能なユーザ・インターフェイスの開発を行った。これは、ユーザの文書上での単語選択、入力作業に応じてバックエンドにて検索と候補の提示順位の計算を行い表示するもので、新規性の高いものであるといえる。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

計画に挙げた二つの目標である,翻刻データの蓄積によるキーワード検索の精度向上と,入力補完のための翻刻候補の提示技術の研究開発は計画通りに進んでいる。
翻刻データの蓄積によるキーワード検索の精度向上については,これまでに開発した劣化印刷文書画像や手書き草書体古文書画像へ適用可能な全文検索技術をもとに、汎用プロトコルに準拠したWebサービスとして検索サーバの構築を行った。さらに翻刻データを蓄積・共有することで、既存の検索技術の検索精度を向上させる技術の研究開発を行い、蓄積された翻刻データを用いてHMM学習による適合性フィードバックを利用した検索精度の向上技術を確立した。特に、日本語文書の場合に1文字に対する10位までの平均順位正答率を、現在の0.43から、3文字に対する正答率に匹敵する0.78まで向上させた。
また,入力補完のための翻刻候補の提示技術: 課題(1)にて開発した技術を利用して、翻刻候補の提示技術を開発し、GUI上で対話的に検索、翻刻テキストを入力して翻刻作業が可能なユーザ・インターフェイスを開発した。これは、ユーザの文書上での単語選択、入力作業に応じてバックエンドにて検索と候補の提示順位の計算を行い表示するものである。

今後の研究の推進方策

平成25年度には、24年度までに確立した基本文字列検索技術に加えて、翻刻知識の蓄積を利用し、擬似コードを用いた高度なテキスト解析を確立することにより、翻刻知識の共有による翻刻者の協働作業を可能とし、高機能、高精度な翻刻支援システムを構築することを目標とする。この目標を達成するために、具体的に(1)翻刻データの蓄積によるキーワード検索の精度向上、(2)入力補完のための翻刻候補の提示技術、(3)N-gram共起頻度に基づく文書画像上でのテキスト解析技術の3つの研究課題を遂行する必要がある。平成25年度には、特に(2)-b、(3)の課題を遂行する。
(2)-b 入力補完のための翻刻候補の提示技術(翻刻支援システムの運用とGUI,順位付けアルゴリズム開発): 前年度までの成果に加え、翻刻専門家の評価・意見を検証して取り入れ、候補提示のための順位付けアルゴリズム、GUI構成について改善を行う。
(4)N-gram共起頻度に基づく文書画像上でのテキスト解析技術: 古文書画像においては、文法、語彙が大きく異なるために現存するテキスト分かち書き技術は利用が困難である。このため、文書画像上での全文検索技術を応用した重要語の抽出とその共起頻度に基づく文書画像上でのテキスト解析技術を開発する。これまでの古文書画像に対するテキスト解析では、機械可読テキストへの変換が必須であったが、本手法では、文書画像のみからテキスト解析を実現し、さらに翻刻テキストを付加してゆくことでその精度を向上させることができる。
また、研究成果の論文誌への投稿、学会シンポジウムでの発表はもとより、所属研究室ウェブサイトを通じて、成果をわかりやすく国民に説明し、サービスとしての一般公開、および、オープンソースソフトウェアとしての公開を含め、本研究の意義を積極的に社会へ発信していく予定である。

次年度の研究費の使用計画

研究計画に従い使用した結果生じた670,940円は、平成24年度に導入している文書画像検索エンジン・翻刻支援システム用ウェブサーバについて、現状不足しているストレージの拡張に充当する計画である。

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi