2019 Fiscal Year Annual Research Report

Image-based contents analysis for untranscribed document image archives

Research Project

Project/Area Number	17K00241
Research Institution	Future University-Hakodate
Principal Investigator	寺沢憲吾公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
Project Period (FY)	2017-04-01 – 2020-03-31
Keywords	画像、文章、音声等認識 / パターン認識 / データベース / デジタルアーカイブ
Outline of Annual Research Achievements	本研究は、手書き筆記における書体や字形のゆらぎ、あるいは経年劣化などの理由により機械判読が困難である文書画像を対象に、画像特徴に基づいて特定の文字列の出現頻度や出現パターン、あるいは複数の文字列の共起性などを解析することにより、文書画像に記載された文字列の構造を解き明かしていくことを目的として、主に明治期の未翻刻の新聞画像を対象に、文字認識を経ることなく頻出語を抽出し、また抽出された頻出語の重要度の評価を行う研究を行った。研究初年度は、この研究の土台にあたる、文字切出しの精度向上や画像特徴量の性能向上、ならびに、頻出語の抽出に必要となる画像特徴量の離散化手法の改良に関する研究を行い、一定の成果を得た。さらに、頻出パターンの重要度の評価については、該当語の出現の集中度合いを評価することが有効であることを見いだし、地名や人名などの固有名詞を含む、いくつかの重要語を抽出可能であることを確認した。第二年度は、頻出語の重要度を測定する指標の改良として、語の出現間隔に着目し、その分布が幾何分布に従うか否かの適合度を測るという手法を新たに考案し、実験により検証した。実験の結果、開発した手法を採用することにより、機能語のような重要度の低い語を除外して、その時期の主要な話題を表すような語を拾い出すことが一定程度可能であることが確認できた。特に短期間に集中的に出現する語は高い精度で抽出することができた。最終年度は、第二年度に開発した手法をより詳細に評価し、その特性を明らかにした。また、本研究の土台となっている画像特徴量についても、初年度来用いていた方法に加え、深層学習の手法を取り入れた特徴量もシステムに組み込み、解析対象画像の特性に応じてより高精度な特徴抽出法を選択できるようにした。また、本手法による重要語抽出の結果をハイライト表示して閲覧者に提示する、可視化の手法も実装した。

Research Products
(1 results)

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Presentation] Extraction of Distinctive Keywords and Articles from Untranscribed Historical Newspaper Images2020
- Author(s)
  Sora Ito and Kengo Terasawa
- Organizer
  International Workshop on Advanced Image Technology, IWAIT2020
- Int'l Joint Research