2018 Fiscal Year Research-status Report
文書画像アーカイブに対するテキスト情報に依存しない内容解析
Project/Area Number |
17K00241
|
Research Institution | Future University-Hakodate |
Principal Investigator |
寺沢 憲吾 公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 画像、文章、音声等認識 / パターン認識 / データベース / デジタルアーカイブ |
Outline of Annual Research Achievements |
本研究は、手書き筆記における書体や字形のゆらぎ、あるいは経年劣化などの理由により機械判読が困難である文書画像を対象に、画像特徴に基づいて特定の文字列の出現頻度や出現パターン、あるいは複数の文字列の共起性などを解析することにより、文書画像に記載された文字列の構造を解き明かしていくことを目的としている。本年度も、昨年度に引き続き、明治期の未翻刻の新聞画像を対象に、文字認識を経ることなく頻出語を抽出し、また抽出された頻出語の重要度の評価を行う研究を行った。昨年度までの研究で確立させた、単文字画像の画像特徴量のクラスタリングと離散化による擬似コード化の成果を土台として、昨年度の成果に加え、頻出語の重要度を測定する指標として、語の出現間隔に着目し、その分布が幾何分布に従うか否かの適合度を測るという手法を考案し、実験により検証した。これは、頻出語のうち機能語のような重要度の低い語はランダムに出現するため、その出現間隔はおおよそ幾何分布に従うと考えられる一方、重要度の高い語は、ランダムではなく、一定期間に集中的に出現する可能性が高く、その出現間隔は幾何分布とは離れたものとなるとの知見に基づくものである。実験の結果、開発した手法を採用することにより、機能語のような重要度の低い語を除外して、その時期の主要な話題を表すような語を拾い出すことが一定程度可能であることが確認できた。特に短期間に集中的に出現する語は高い精度で抽出することができた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度までで確立した単文字画像の擬似コード化の結果は安定した精度を出しており、それを土台とした頻出語の重要度評価の精度向上も順調に進展している。
|
Strategy for Future Research Activity |
当初研究計画に基づき、引き続き研究を推進していく。
|
Causes of Carryover |
今年度中に投稿した国際会議の開催日が翌年度であるため、次年度に使用する。
|