Research Abstract |
手書き文章自動認識の精度を向上するため,自然言語処理に関する技術を用いる手法が有効である.しかし,手書き文字の字形に関する多様性や,日本語構文の変遷や誤用により,必ずしも自然言語処理技術が手書き文章認識精度に貢献しているとは言い難い.このような状況において本研究では,誤認識訂正のための日本語構文の自己組織化モデルの開発と,データマイニングを活用した文字認識用学習パタンの漸次生成アルゴリズムの開発を目的としている.日本語構文の自己組織化モデルの検討については,前年度の研究成果を受けて,認識処理後の構文解析結果から誤認識箇所を特定し訂正する方法について検討した.その結果,学生のレポートなどに代表されるように,筆者の表現上の癖を構文解析結果から抽出することにより誤認識箇所の検出および訂正するための枠組みを完成させることが出来た.更に,そのアルゴリズムを手書き文書認識システムに組み込み評価実験を行ったところ,誤認識箇所検出・訂正に有効であることがわかり,これによって,日本語構文の自己組織化モデルを作り上げることが可能であることが分かった.また文字認識用学習パタンの自動生成については,これまで提案されてきた手法においては,手書き文字に対応可能な多様なパタンの生成は可能でも,その中から認識精度改善に有効なパタンを選別することが難しく,それをどう実現するかが課題であった.今年度は,書道の永字八法をヒントにして,手書き故に癖が出やすい,「横画」や「右はらい」などに着目し,筆者の癖を抽出することで,筆者毎に有効な学習パタンの自動生成アルゴリズムを検討した.しかし,検討したアルゴリズムでは,膨大な変形パタンを生成し,時間のかかる選別方法を経て,その中から有用なパタンを絞り込むため,今年度は,パタン生成時に筆者の癖情報を適用する範囲に制限を設けることで,パタン選別の高速化も実現することが出来た.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は,「誤認識訂正のための日本語構文自己組織化モデルの開発」および「データマイニングを活用した学習パタンの漸次生成アルゴリズムの開発」に分けて研究を行っている.それぞれの今年度の目標である「日本語構文自己組織化モデルの検討を完了し認識システムに組み込んで実験すること」および「学習パタン生成アルゴリズムの完成」がいずれも達成できているので,計画通りに進んでいると判断する,
|
Strategy for Future Research Activity |
本研究は3年計画のうち2年が終了した.1年目に明らかになった既存の構文解析器の設計方針が,本研究の利用に適さない部分があり,一部予定外の検討が必要であったが,それ以外は当初の計画通りほぼ進んでいる.次年度は研究最終年度にあたるため,これから研究上大きな変更を余儀なくされることは考えにくい.よって今後は,これまでの研究成果を踏襲して,1つの認識アルゴリズムとして実装を完成させ,評価を行って行く予定である.
|