2016 Fiscal Year Research-status Report
高精度な古文書文字認識器を用いた古文書読解支援システムの構築に関する研究
Project/Area Number |
26330416
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
加藤 聡 松江工業高等専門学校, 情報工学科, 准教授 (40342547)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 古文書文字認識 / 認識精度 / マルチテンプレート / サポートベクターマシン / マハラノビス距離 / SOMテンプレート |
Outline of Annual Research Achievements |
本研究において,古文書読解支援システムの実装対象としては,可搬性の観点からタブレット端末を考えている.これらはバッテリ駆動を前提にハードウェアが設計されているため,デスクトップPCに比べて性能の劣る(しかし消費電力が少ない)プロセッサを搭載している場合が多い. 本システムの文字認識部に用いることができる認識手法にはいくつかのバリエーションが考えられるが,一般的に認識精度の高い手法は計算量が多く,最も良い精度が得られる認識手法が本研究における読解支援システムに適しているとは限らない.そこで,認識部に用いる具体的な認識手法について検討を行った.候補としては,マルチテンプレート法や,改良型マハラノビス距離,サポートベクターマシン(SVM),SOMテンプレート法などが挙げられる. それぞれの手法に対し,古文書文字データベースから61字種のデータセットを認識させた結果, 認識精度の面では改良型マハラノビス距離を用いたものが最も良かったが,古文書文字のデータベースは字種によっては極端にサンプルが少ない場合があり,マハラノビス距離のような統計的パラメータに基づく認識手法は必ずしも適さない場合がある.また,SVMによる認識手法も高い精度が得られたが,認識処理に必要な計算量の観点から,CPU パワーの面で劣るタブレット端末には不向きであることが予想される. 結果として,計算量と認識精度の観点で最もバランスが取れているのは,上記の手法の中ではマルチテンプレート法という結論が得られた. 他の手法については,入力画像にノイズが多く乗っていたり,マルチテンプレート法で極端に認識精度が低い字種など,特殊な状況において補助的に利用することが望ましいと考える.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
平成26年度に研究代表者が病気による長期療養を余儀なくされたため研究の遂行に遅れが生じ,その遅れを取り戻せないまま現在に至っている.対応として,当該研究課題の研究機関延長を申請し,受理された.
|
Strategy for Future Research Activity |
これまでに構築した特徴抽出や認識部に加えて,ユーザインタフェースを追加して古文書読解支援システムとして完成させることが目標となる.実装の対象として想定しているのは,9インチ程度のAndroidタブレットである.タブレット端末は,拡大・縮小,スクロール,領域選択など,画面に触れて直観的に操作できるため,マウス操作よりも利便性が高く,デスクトップPC やノートPC と比較して可搬性も非常に優れている. 今後は,タブレット端末で動作する古文書読解支援システムの構築を目指し,そのために必要となるユーザインタフェースや,タブレット端末への実装に関する検討を行いつつ,研究を進めて行く方針である.
|
Causes of Carryover |
病気療養による研究の遅延に対して,補助期間の延長を申請し,承認されたため.
|
Expenditure Plan for Carryover Budget |
申請時の研究計画に基づき,必要な物品費および旅費として使用する.
|