2017 Fiscal Year Annual Research Report

A Study on Developing a Reading Support System for Japanese Historical Documents by using Accurate Historical Character Recognizer

Research Project

Project/Area Number	26330416
Research Institution	Matsue National College of Technology
Principal Investigator	加藤聡松江工業高等専門学校, 情報工学科, 准教授 (40342547)
Project Period (FY)	2014-04-01 – 2018-03-31
Keywords	古文書文字認識 / マルチテンプレート / 自己組織化マップ / 古文書読解支援システム / 並列処理 / PCクラスタ / GPGPU
Outline of Annual Research Achievements	研究期間全体を通じて、まず古文書読解支援システムの認識部に用いる認識手法について検討し、ノイズ等への頑健性についてはSOMテンプレートと呼ばれる手法、認識精度と計算量のバランスについてはマルチテンプレート法がそれぞれ優れていることを明らかにした。さらに、それらの手法を用いたシステムのプロトタイプをタブレット端末上に実装し、ユーザインタフェース等についての検討を行った。最終年度においては、古文書読解支援システムの認識部における文字パターン学習の高速化と、ユーザインタフェース部の改良において必要となる、古文書画像からの文字領域の自動抽出手法について研究を実施した。認識部における文字パターンの学習には自己組織化マップ（SOM）などの機械学習アルゴリズムを用いているが、認識精度を上げるためには学習サンプルの数を相当数与える必要があり、高速な計算機を用いても学習に多くの時間がかかってしまう問題があった。そのため、PCクラスタと呼ばれる並列計算機環境の構築やGPGPUと呼ばれるベクトル計算の高速化手法の導入などを行い、学習にかかる時間を大幅に削減することができた。また、古文書画像からの文字領域の自動抽出法については、一般的なOCRで用いられるレイアウト解析の手法に基づいて古文書画像から空白ではない領域を抽出し、抽出された領域内に描かれた画像パターンが文字情報なのか、あるいは挿絵などの図形であるのかを、画像パターン内の黒画素分布のエントロピーによって判別する手法を提案した。本研究における古文書読解支援システムの従来のユーザインタフェースでは、古文書画像からの個別文字の切り出しをユーザが行う必要があったが、文字領域の自動抽出を行うことによって、個別文字の切り出し作業を自動化する道筋がある程度拓けてきたものと思われる。

Research Products
(2 results)

All Presentation (2 results)

[Presentation] GPUクラスタにおけるSOMの実装に関する基礎的検討2017
- Author(s)
  加藤聡
- Organizer
  第33回ファジィシステムシンポジウム（FSS2017）
[Presentation] GPUクラスタに向けたSOM学習アルゴリズムの実装とその評価2017
- Author(s)
  加藤聡
- Organizer
  第22回日本知能情報ファジィ学会中国・四国地区大会