2017 Fiscal Year Research-status Report
文書画像アーカイブに対するテキスト情報に依存しない内容解析
Project/Area Number |
17K00241
|
Research Institution | Future University-Hakodate |
Principal Investigator |
寺沢 憲吾 公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 画像、文章、音声等認識 / パターン認識 / データベース / デジタルアーカイブ |
Outline of Annual Research Achievements |
本研究は、手書き筆記における書体や字形のゆらぎ、あるいは経年劣化などの理由により機械判読が困難である文書画像を対象に、画像特徴に基づいて特定の文字列の出現頻度や出現パターン、あるいは複数の文字列の共起性などを解析することにより、文書画像に記載された文字列の構造を解き明かしていくことを目的としている。本年度は、明治期の未翻刻の新聞画像を対象に、文字認識を経ることなく頻出語を抽出し、また抽出された頻出語の重要度の評価を行う研究を行った。その際、この研究の土台にあたる、文字切出しの精度向上や画像特徴量の性能向上について、単文字画像の正規化方法を見直すことなどにより、一定の成果を得ることが出来た。また、頻出語の抽出に必要となる画像特徴量の離散化で用いているk-means法によるクラスタリングについて、多段階でこれを行うことにより精度の向上が得られることを確認した。さらに、頻出パターンの重要度の評価については、対象文書が新聞記事であることから時系列を考慮して該当語の出現の集中度合いを評価することが有効であることを見いだし、記事中に連続して出現した日数を表す指標を評価に組み入れることで重要度評価の精度が向上することを確認した。これらをもとに実データ(「函館新聞」明治14年分)を対象に重要語抽出実験を行ったところ、地名や人名などの固有名詞を含む、いくつかの重要語を抽出可能であることが確認できた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
文字切出しの精度向上、画像特徴量の性能向上、クラスタリングの精度向上、重要度評価の精度向上など、順調に進展している。
|
Strategy for Future Research Activity |
当初研究計画に基づき、引き続き研究を推進していく。
|
Causes of Carryover |
当初予定していた学会参加費等が事情により当該年度は不要となったため、次年度以降に使用する。
|
Research Products
(1 results)