Research Abstract |
手書き文章自動認識の精度を向上するため,自然言語処理に関する技術を用いる手法が有効である.しかし,手書き文字の字形に関する多様性や,日本語構文の変遷や誤用により,必ずしも自然言語処理技術が手書き文章認識精度に貢献しているとは言い難い.このような状況において本研究では,誤認識訂正のための日本語構文の自己組織化モデルの開発と,データマイニングを活用した文字認識用学習パタンの漸次生成アルゴリズムの開発を目的としている.日本語構文の自己組織化モデルの検討については,今年度,既存の構文解析システムや形態素解析システムを用いた誤認識訂正の可能性について模索した.この場合,文法的に正しくない場合も既存システムで解析ができるため,解析結果から誤認識箇所を特定し訂正するのは困難であることがわかった.現在それらの分析結果をもとに構文解析アルゴリズムの検討を行っている最中である.また文字認識用学習パタンの自動生成については,これまで提案されてきた手法においては,手書き文字に対応可能な多様なパタンの生成は可能でも,その中から認識精度改善に有効なパタンを選別することが難しく,そのため標準パタンの分布がぼけてしまい,認識精度改善には至っていなかった.本研究では,永字八法に着目し,手書き故に癖が出やすい,「横画」や「右はらい」などに着目し,筆者の癖を抽出することで,筆者毎に有効な学習パタンの自動生成アルゴリズムを検討した.提案アルゴリズムを用いて小規模な予備実験を行ったところ,その有用性は十分に確認できているため,今後,大規模なサンプルデータを収集し,その効果について十分な検証を行って行く予定である.
|