研究課題/領域番号 |
63460222
|
研究種目 |
一般研究(B)
|
配分区分 | 補助金 |
研究分野 |
情報学
|
研究機関 | 東北大学 |
研究代表者 |
牧野 正三 東北大学, 応用情報学研究センター, 助教授 (00089806)
|
研究分担者 |
金井 浩 東北大学, 工学部電気工学科, 講師 (10185895)
安倍 正人 (阿倍 正人) 東北大学, 大型計算機センター, 助教授 (00159443)
城戸 健一 東北大学, 応用情報学研究センター, 教授 (30006209)
|
研究期間 (年度) |
1988 – 1989
|
研究課題ステータス |
完了 (1989年度)
|
配分額 *注記 |
6,500千円 (直接経費: 6,500千円)
1989年度: 1,800千円 (直接経費: 1,800千円)
1988年度: 4,700千円 (直接経費: 4,700千円)
|
キーワード | 音声認識 / 文字認識 / 単語対の識別に必要な音素対 / 単語辞書の誤り訂正能力 / 遷移情報の誤り訂正能力 / 言語情報 / 文節オートマン / 構文解析法 |
研究概要 |
誤りを含む文字・音素系列を、言語情報によって訂正することが広く行われているが、タスクの難易度、音素(音節、文字)認識率、単語認識率の関係については未だ明らかにされていないことが多い。そこで本研究では、最初に日本語の重要語5、317語を分析して近距離単語対の性質を調べた。比較対象単語に占める近距離単語の割合は、単語長が長くなるに従って小さくなることがわかった。これは、長い単語ほど冗長度が高く、誤りに強いことを示している。距離1の単語対の識別において識別が必要な音素対は、母音相互間、/K/ー/t等である。/a/ー/e/、/a/ー/o/、/k/ー/t/等は、実際の認識においても識別が難しい音素対である。また距離1の単語対の識別において識別が必要な音節対は、動詞で/ku/ー/ru/、/ru/ー/su/、名詞で/ki/ー/si/、/i/ー/si/等である。特に子音部が異なり、母音部が同じである音節対の頻度が高いことから子音の認識の重要性がうかがわれる。距離1の単語対の識別において識別が必要な文字対は、名詞では、「月」ー「日」(1月ー1日)、「上」ー「下」(地上ー地下)等の序数詞や程度を示す文字対、動詞では、「ま」ー「め」(止まるー止める)、「す」ー「る」(起こすー起こる)などの自動詞と他動詞の対に起因する対が多い。辞書を用いる単語認識法によって、前述の重要語を認識した場合の音素、音節、文字誤認識率と単語誤認識率の関係を調査した。音素認識率90%のとき単語認識率95.9%、音節認識率90%のとき単語認識率96.3%、文字認識率90%のとき単語認識率90.6%である。遷移情報を利用した場合の近距離単語対の数を計算するアルゴリズムを考えだした。遷移情報を用いた場合、音素認識率90%のとき音素長5の単語認識率は、bigramを用いたとき約26%、triramを用いたとき約71%であった。次に同じ方法で、品詞レベルでの単語誤認識率と文誤認識率の関係を求めた。11単語の文を認識する場合に単語の認識率が80%であるとすると、bigramによって誤りを訂正しようとしても文認識率は4.3%とほとんど認識は不可能であるのに対し、trigramによって誤り訂正を行うと文認識率は67%になるという結果が得られた。
|