2015 Fiscal Year Research-status Report
高精度な古文書文字認識器を用いた古文書読解支援システムの構築に関する研究
Project/Area Number |
26330416
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
加藤 聡 松江工業高等専門学校, 情報工学科, 准教授 (40342547)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 古文書文字認識 / SOMテンプレート / 認識精度向上 / クラスタリング |
Outline of Annual Research Achievements |
SOMテンプレートを用いた文字認識手法を古文書文字認識に適用する場合,文字画像にノイズが乗っていたり欠損がある場合の認識精度の低下は抑えられるものの,欠損等のない文字も含めた総合的な認識精度については,他の一般的な手法と比較して劣るという結果がこれまでの研究で得られている.古文書文字は「くずし字」であることが多く,とくに平仮名のくずし字は同じ字種でも字母によって異なるくずし方となるため,一つの字種に一つのSOMテンプレートを割り当てる方法では,字母の違いによるくずし字のバリエーションにうまく対応することができず,このことが認識精度の低下を招いているものと推測される. そこで,今年度はこの問題を解決するため,SOMテンプレート作成時に使用される文字サンプル群をあらかじめクラスタリングしておき,一つの字種に対して必要に応じて複数のテンプレートを使用できるようにすることで,SOMテンプレートを用いた古文書文字認識手法の総合的な精度向上を試みた.具体的には,平仮名のくずし字を対象として,各字種のくずし字画像サンプル群(一字種あたり50~200サンプル)に対し,ウォード法による階層的クラスタリングを施し,その結果によって字種ごとにサンプル群を複数(2~4個)のクラスタに分割し,それぞれのクラスタに対してSOMテンプレートを作成した. この手法を,従来法において極めて認識精度の低かった字種に対して適用したところ,平均して20%の認識精度の改善が見られた.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
平成26年度に研究代表者が病気により長期療養を余儀なくされたため,その分の遅れを取り戻すことができずにいる.しかしながら,平成26年度末時点での課題であった,文字画像サンプルのクラスタリングによるSOMテンプレートの追加生成,というアイディアは実装し,評価することができたので,ある程度の課題はクリアできたものと考えている.
|
Strategy for Future Research Activity |
古文書文字の認識手法については一通りの知見が得られたと考えられる.今後は,多層パーセプトロン(MLP)やサポートベクターマシン(SVM)などの文字認識手法も視野に入れて,最終的に提案システムに採用する認識手法を決め,古文書読解支援システムの構築を目指す.
|
Causes of Carryover |
数値実験用ワークステーションが,当初の予定よりも安価に購入できたため.
|
Expenditure Plan for Carryover Budget |
H28年度の物品費に充当する.
|