2014 Fiscal Year Research-status Report
高精度な古文書文字認識器を用いた古文書読解支援システムの構築に関する研究
Project/Area Number |
26330416
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
加藤 聡 松江工業高等専門学校, 情報工学科, 准教授 (40342547)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 古文書文字認識 / 認識精度向上 |
Outline of Annual Research Achievements |
多層パーセプトロン(MLP)やサポートベクターマシン(SVM),自己組織化マップ(SOM)等の機械学習アルゴリズムに基づく文字認識手法は,欠損のない文字画像に対しては比較的良好な認識精度を得ることができる.しかしながら,古文書にはノイズや欠損のある文字画像があり,そのことが認識率の低下を招くおそれがある. そこで,装飾文字の認識に用いられる,SOMテンプレートを用いた文字認識手法を古文書文字認識に適用し,従来手法との比較を行った.認識実験の結果,従来手法と比較して高い認識精度は得られなかったが,欠損のある文字画像に対しては,SOMテンプレートを用いた文字認識が有効であることが確認できた. 今後の課題として,SOMテンプレートを生成する際の,SOMの学習パラメータや,競合層サイズに関する詳しい検討が必要だと考えられる.さらに,各字種のサンプル画像集合(1字種あたり数十~数百サンプル)をあらかじめクラスタリングしておき,1字種につき複数のSOMテンプレートを用意することで,認識精度の向上を図ることも必要である.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
ノイズや欠損のある文字画像に対応するため,装飾文字の認識に用いられる,SOMテンプレートを用いた文字認識手法を古文書文字認識に適用することを試みたが,ノイズや欠損による認識精度の低下は抑えられたものの,全体的な認識精度が他の手法と比較して劣る結果になってしまった.これに対して,認識辞書のクラスタリングを行って,SOMテンプレートの生成をより正確に行う改良手法を考えたが,研究代表者が病気により長期療養を余儀なくされたため,提案法の実装と予備実験的な評価のみにとどまってしまっている.
|
Strategy for Future Research Activity |
本研究の目的である「古文書読解支援システムへの組込みと評価」に重点を置きつつ,以下の計画に基づき研究を進める. (1) 学習サンプルのクラスタリングによる認識精度向上の確認 をそれぞれ実装し,上記の文字特徴量データベースに対して実験を行い,認識率を比較する.また,自己組織化マップ(SOM)による文字特徴空間のクラスタリングについて,多層パーセプトロン(MLP),サポートベクターマシン(SVM)を用いた認識手法における有効性について検証する. (2) 古文書読解支援システムへの認識器の組込み 前年度に実装した認識手法を古文書読解支援システムのプロトタイプシステムに組込む.現状のプロトタイプではモジュールごとに異なるソフトウェアで実装しているため,全体を1つのソフトウェアとして構築しなおし,処理の高速化を実現する.
|
Causes of Carryover |
病気により3か月程度の療養が必要となり,当初計画していた学会発表等をキャンセルしたため.
|
Expenditure Plan for Carryover Budget |
当初学会発表を計画していたものも含め,積極的に発表および情報の収集を行う.
|