2重マルコフモデルによる日本語文の誤り検出・訂正方法

Research Project

Project/Area Number	06680348
Research Category	Grant-in-Aid for General Scientific Research (C)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	University of Fukui
Principal Investigator	荒木哲郎福井大学, 工学部, 助教授 (80222743)
Project Period (FY)	1994
Project Status	Completed (Fiscal Year 1994)
Budget Amount *help	¥1,100,000 (Direct Cost: ¥1,100,000) Fiscal Year 1994: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywords	マルコフモデル / OCR誤り / 漢字かな混り文 / 置換誤り / 挿入誤り / 脱落誤り / 誤り検出 / 誤り訂正
Research Abstract	21世紀の知的通信サービスの1つにファックスを用いた翻訳通信があり、一般の家庭から利用可能で、将来的に大いに期待される。ファックスによって送信された文書は、光学式文字読み取り装置(OCR)を通して入力されるが、このような文書には、一般に置換誤り、脱落誤りおよび挿入誤りの文字列が含まれる。自然言語処理技術を用いて、これらの誤りを自動検出および訂正する技術が期待されている。従来、日本語漢字かな混じり文に対し、m重マルコフ連鎖モデルを用いて、これら3つの誤りタイプの判定および訂正を行う「選択的誤り訂正法」が提案されており、疑似的に設定されたランダム誤りに対し、その有効性が示されている。本論文では、選択的誤り訂正法を、実際に、ファックスを通して送信された文書をOCRにより読み込む場合に含まれる日本語文の誤り文字列の検出・訂正に適用し、本手法が、ファックスとOCRによる複合誤りの検出および訂正に効果的であることを確認する。フォントサイズとして8.10.12ポイントの3種類を用いた実験により、次の知見を得た。 1.FAX通信された文書のOCR誤りの特徴として、 (a)置換誤りおよび混合誤りタイプ、誤り位置が先頭および内部、誤り文字列長が1または2、文節内の誤り文字が連続したもの、誤り文字種が漢字であるものが多数を占めること。 (b)文字の大きさに比例して、複雑な誤りタイプが減少すること。従来のランダム誤りと比較して、FAX-OCR複合誤りの適合率および再現率が低下する理由として、 (a)複数の異なる誤りタイプから構成される混合誤りが存在すること。 (b)文節の先頭および末尾にも誤りが存在すること。 (c)文節内で誤り位置が分離している誤りが存在すること。 (d)文節内の誤り文字列長が3以上の誤りが存在すること。