2重マルコフモデルによる日本語文の誤り検出・訂正方法
Project/Area Number |
06680348
|
Research Category |
Grant-in-Aid for General Scientific Research (C)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | University of Fukui |
Principal Investigator |
荒木 哲郎 福井大学, 工学部, 助教授 (80222743)
|
Project Period (FY) |
1994
|
Project Status |
Completed (Fiscal Year 1994)
|
Budget Amount *help |
¥1,100,000 (Direct Cost: ¥1,100,000)
Fiscal Year 1994: ¥1,100,000 (Direct Cost: ¥1,100,000)
|
Keywords | マルコフモデル / OCR誤り / 漢字かな混り文 / 置換誤り / 挿入誤り / 脱落誤り / 誤り検出 / 誤り訂正 |
Research Abstract |
21世紀の知的通信サービスの1つにファックスを用いた翻訳通信があり、一般の家庭から利用可能で、将来的に大いに期待される。ファックスによって送信された文書は、光学式文字読み取り装置(OCR)を通して入力されるが、このような文書には、一般に置換誤り、脱落誤りおよび挿入誤りの文字列が含まれる。自然言語処理技術を用いて、これらの誤りを自動検出および訂正する技術が期待されている。従来、日本語漢字かな混じり文に対し、m重マルコフ連鎖モデルを用いて、これら3つの誤りタイプの判定および訂正を行う「選択的誤り訂正法」が提案されており、疑似的に設定されたランダム誤りに対し、その有効性が示されている。 本論文では、選択的誤り訂正法を、実際に、ファックスを通して送信された文書をOCRにより読み込む場合に含まれる日本語文の誤り文字列の検出・訂正に適用し、本手法が、ファックスとOCRによる複合誤りの検出および訂正に効果的であることを確認する。 フォントサイズとして8.10.12ポイントの3種類を用いた実験により、次の知見を得た。 1.FAX通信された文書のOCR誤りの特徴として、 (a)置換誤りおよび混合誤りタイプ、誤り位置が先頭および内部、誤り文字列長が1または2、文節内の誤り文字が連続したもの、誤り文字種が漢字であるものが多数を占めること。 (b)文字の大きさに比例して、複雑な誤りタイプが減少すること。 従来のランダム誤りと比較して、FAX-OCR複合誤りの適合率および再現率が低下する理由として、 (a)複数の異なる誤りタイプから構成される混合誤りが存在すること。 (b)文節の先頭および末尾にも誤りが存在すること。 (c)文節内で誤り位置が分離している誤りが存在すること。 (d)文節内の誤り文字列長が3以上の誤りが存在すること。
|
Report
(1 results)
Research Products
(3 results)