研究概要 |
文字認識技術は今後手書きされた文書の認識へと発展が期待されているが,この場合現在の技術では文字の認識誤りが高頻度で発生することは不可避であり,この誤りを何らかの方法により訂正することが必要である.特に言語の持つ冗長性を生かした単語辞書による誤り訂正は強力な誤り訂正手法であるが,それでも訂正できない誤りが存在する.例えば文字単位の認識で単語「文字」の「字」が「学」と誤り,辞書中に「文字」と「文学」の両方とも存在すると,この誤りは訂正することが不可能となる.このような単語対はミニマル・ペア(MP)と呼ばれ,それらを区別する文字対(先の例では「字」と「学」)の識別は,最終的な認識性能を左右するため重要である. 本研究では,MPを識別するためにはどのような文字を重点的に認識すれば良いかを解明するため,手書き文字データベースETL9における文字間の近さを類似度によって測り,新明解国語辞典の重要語中のMPについての調査を行なった.その結果,MPおよびMPを識別する文字対は全体のごく僅かであるが,識別に関わる文字は文字全体の大きな部分を占め,ほとんどの文字の認識がMPの識別に必要であることが明らかになった.また,MPの識別における文字対の重要性の基準として,従来の確率に代えて類似度の期待値を考え,重要性の高い文字対の調査を行い,活用語に由来する「す-る」,「り-る」,数詞に由来する「月-日」,複合動詞に由来する「見-切」,「取-引」などの識別が重要であること,そして文字としては「頼」「勝」「通」「縮」「広」「締」「埋」「取」「立」「飛」「見」「浮」「切」「る」などの認識が重要であることが明らかになった.
|