2012 Fiscal Year Annual Research Report
データマイニングを用いた日本語構文自己再編モデルによる手書き文章自動認識の研究
Project/Area Number |
22500170
|
Research Institution | Tokyo National College of Technology |
Principal Investigator |
鈴木 雅人 東京工業高等専門学校, その他部局等, 教授 (50290721)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | パターン認識 / データマイニング / 自然言語処理 |
Research Abstract |
本研究は,日本語構文の変遷に対応する暫時学習モデルの検討と,手書き文字の多様性を吸収した手書き文字認識法を検討することにより,手書き文章認識制度の改善を目的とするものである.今年度は,これまでの2年間の研究成果を踏襲し,必要な改善を講じた上で,研究成果をまとめる作業を行った.誤認識訂正法に関しては,筆記者の癖による文章表現の偏りや同じ表現の多様などの情報と,日本語構文と組み合わせることで誤認識訂正精度を改善することができることを前年度までに確認しているため,それらをアルゴリズムとして整理し,誤認識訂正アルゴリズムを完成させた.また,学習パタンの自動収集による個別文字の認識改善については,当初,手書き文字の筆画(とめ・はらいなど)の特徴を抽出して文字画像を変形することで認識制度が改善されると考えていたが,研究の過程において,むしろ文字画像の変形をある種の特徴ととらえ,その特徴の分布に適切な密度関数を当てはめて識別を行う方がより高精度な識別が可能になることがわかり,そのような分布の当てはめによる学習パタン生成の改善を行った.このことにより,当初の予定では,学習パタン生成にかかる処理時間が指数関数的に増えることが懸念材料になっており,その改善策も検討する必要があったが,分布の当てはめによる手法によりそのような問題点も解消された.以上,2つの課題について取り組み,アルゴリズムを実装し,実験データを用いて検証を行った.その結果,従来の手書き文書認識に比べて処理内容が増えているために認識時間は長くなるが,文章認識精度を大幅に改善できることが検証できた.また,これらの研究成果を研究会などで公表した.
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(19 results)