1994 Fiscal Year Annual Research Report
2重マルコフモデルによる日本語文の誤り検出・訂正方法
Project/Area Number |
06680348
|
Research Institution | University of Fukui |
Principal Investigator |
荒木 哲郎 福井大学, 工学部, 助教授 (80222743)
|
Keywords | マルコフモデル / OCR誤り / 漢字かな混り文 / 置換誤り / 挿入誤り / 脱落誤り / 誤り検出 / 誤り訂正 |
Research Abstract |
21世紀の知的通信サービスの1つにファックスを用いた翻訳通信があり、一般の家庭から利用可能で、将来的に大いに期待される。ファックスによって送信された文書は、光学式文字読み取り装置(OCR)を通して入力されるが、このような文書には、一般に置換誤り、脱落誤りおよび挿入誤りの文字列が含まれる。自然言語処理技術を用いて、これらの誤りを自動検出および訂正する技術が期待されている。従来、日本語漢字かな混じり文に対し、m重マルコフ連鎖モデルを用いて、これら3つの誤りタイプの判定および訂正を行う「選択的誤り訂正法」が提案されており、疑似的に設定されたランダム誤りに対し、その有効性が示されている。 本論文では、選択的誤り訂正法を、実際に、ファックスを通して送信された文書をOCRにより読み込む場合に含まれる日本語文の誤り文字列の検出・訂正に適用し、本手法が、ファックスとOCRによる複合誤りの検出および訂正に効果的であることを確認する。 フォントサイズとして8.10.12ポイントの3種類を用いた実験により、次の知見を得た。 1.FAX通信された文書のOCR誤りの特徴として、 (a)置換誤りおよび混合誤りタイプ、誤り位置が先頭および内部、誤り文字列長が1または2、文節内の誤り文字が連続したもの、誤り文字種が漢字であるものが多数を占めること。 (b)文字の大きさに比例して、複雑な誤りタイプが減少すること。 従来のランダム誤りと比較して、FAX-OCR複合誤りの適合率および再現率が低下する理由として、 (a)複数の異なる誤りタイプから構成される混合誤りが存在すること。 (b)文節の先頭および末尾にも誤りが存在すること。 (c)文節内で誤り位置が分離している誤りが存在すること。 (d)文節内の誤り文字列長が3以上の誤りが存在すること。
|
Research Products
(3 results)
-
[Publications] T.Araki,S.Ikehara,N.Tukahara: "An Evaluation to Dctect and Correct Erroncous Charactors worongly Substituted.Deleted and Inscrted in Japanese and English sentences Using Markov Modcls" COLING(Computational Linguistics). 15. 187-193 (1994)
-
[Publications] T.Araki,S.Ikehara,N.Tukahara,Y.Komatsu: "An Evaluation of a Method to detect and Correct Erroncous Characters in Japanese Input through an OCR using Markov Modcls" ANLP(Applied Natural Langnage Processing). 4. 198-199 (1994)
-
[Publications] 荒木、池原、塚原、小松: "マルコフモデルを用いたOCRからの誤り文字列の訂正効果" 情報処理学会自然言語処理研究会資料. 105-1. 105-112 (1994)