• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Research-status Report

文書画像アーカイブに対するテキスト情報に依存しない内容解析

Research Project

Project/Area Number 17K00241
Research InstitutionFuture University-Hakodate

Principal Investigator

寺沢 憲吾  公立はこだて未来大学, システム情報科学部, 准教授 (10435985)

Project Period (FY) 2017-04-01 – 2020-03-31
Keywords画像、文章、音声等認識 / パターン認識 / データベース / デジタルアーカイブ
Outline of Annual Research Achievements

本研究は、手書き筆記における書体や字形のゆらぎ、あるいは経年劣化などの理由により機械判読が困難である文書画像を対象に、画像特徴に基づいて特定の文字列の出現頻度や出現パターン、あるいは複数の文字列の共起性などを解析することにより、文書画像に記載された文字列の構造を解き明かしていくことを目的としている。本年度は、明治期の未翻刻の新聞画像を対象に、文字認識を経ることなく頻出語を抽出し、また抽出された頻出語の重要度の評価を行う研究を行った。その際、この研究の土台にあたる、文字切出しの精度向上や画像特徴量の性能向上について、単文字画像の正規化方法を見直すことなどにより、一定の成果を得ることが出来た。また、頻出語の抽出に必要となる画像特徴量の離散化で用いているk-means法によるクラスタリングについて、多段階でこれを行うことにより精度の向上が得られることを確認した。さらに、頻出パターンの重要度の評価については、対象文書が新聞記事であることから時系列を考慮して該当語の出現の集中度合いを評価することが有効であることを見いだし、記事中に連続して出現した日数を表す指標を評価に組み入れることで重要度評価の精度が向上することを確認した。これらをもとに実データ(「函館新聞」明治14年分)を対象に重要語抽出実験を行ったところ、地名や人名などの固有名詞を含む、いくつかの重要語を抽出可能であることが確認できた。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

文字切出しの精度向上、画像特徴量の性能向上、クラスタリングの精度向上、重要度評価の精度向上など、順調に進展している。

Strategy for Future Research Activity

当初研究計画に基づき、引き続き研究を推進していく。

Causes of Carryover

当初予定していた学会参加費等が事情により当該年度は不要となったため、次年度以降に使用する。

  • Research Products

    (1 results)

All 2018

All Presentation (1 results) (of which Invited: 1 results)

  • [Presentation] 歴史的文書画像に対する内容解析への取り組み2018

    • Author(s)
      寺沢憲吾
    • Organizer
      情報処理学会第116回人文科学とコンピュータ研究会発表会
    • Invited

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi