インターネット上には情報が氾濫している。ネット上の情報(テキスト情報)は、統計や例示に基づく自然言語処理をするとき、有用な言語資となり得る。 本研究は、機械翻訳支援、自動要約、情報抽出などの言語情報処理に必要な文や単語の意味分析、構造分析にネット上のテキスト情報を利用する実験を行い、その有用性の検証を試みたものである。ここでは、機械翻訳の支援システムをつくる研究に、ネット上にある類例(文)を検索して使い、より自然な翻訳文をつくるための実験を行った。一方、情報検索、自動要約などで不可欠となる複合語の単位語(構成要素)への分割とそのその構造分析に、統計的に単語の結合度を測って要素間の単位語の依存関係を明らかにするために、インターネットコーパスを使った。いずれの研究においても、インターネット上のテキストデータの有効性が認められた。 言語の統計処理には常にデータの希薄性の問題がある。信頼性の高い処理結果を得るには、特定の言語現象が例外ではなく規則であることを証明する必要がある。我々の実験は、インターネット上にある"無限"のテキストデータの利用価値が高いことを証明したが、精度の高い言語分析をするうえで、インターネットコーパスにも問題があることからくると思われる難点が見受けられたからである。その点で、インターネットコーパスの利用するときには、ノイズとなるようなデータを利用しないようにする技術も必要である。
|