研究課題/領域番号 |
14580411
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 電気通信大学 |
研究代表者 |
古郡 廷治 電気通信大学, 電気通信学部, 教授 (80114932)
|
研究期間 (年度) |
2002 – 2003
|
研究課題ステータス |
完了 (2003年度)
|
配分額 *注記 |
2,100千円 (直接経費: 2,100千円)
2003年度: 700千円 (直接経費: 700千円)
2002年度: 1,400千円 (直接経費: 1,400千円)
|
キーワード | コーパス / インターネット / 自然言語処理 / 情報抽出 / 自動要約 / 機械翻訳 / 複合語分析 / インターネットコーパス / 複合語処理 / 統計量 |
研究概要 |
インターネット上には情報が氾濫している。ネット上の情報(テキスト情報)は、統計や例示に基づく自然言語処理をするとき、有用な言語資となり得る。 本研究は、機械翻訳支援、自動要約、情報抽出などの言語情報処理に必要な文や単語の意味分析、構造分析にネット上のテキスト情報を利用する実験を行い、その有用性の検証を試みたものである。ここでは、機械翻訳の支援システムをつくる研究に、ネット上にある類例(文)を検索して使い、より自然な翻訳文をつくるための実験を行った。一方、情報検索、自動要約などで不可欠となる複合語の単位語(構成要素)への分割とそのその構造分析に、統計的に単語の結合度を測って要素間の単位語の依存関係を明らかにするために、インターネットコーパスを使った。いずれの研究においても、インターネット上のテキストデータの有効性が認められた。 言語の統計処理には常にデータの希薄性の問題がある。信頼性の高い処理結果を得るには、特定の言語現象が例外ではなく規則であることを証明する必要がある。我々の実験は、インターネット上にある"無限"のテキストデータの利用価値が高いことを証明したが、精度の高い言語分析をするうえで、インターネットコーパスにも問題があることからくると思われる難点が見受けられたからである。その点で、インターネットコーパスの利用するときには、ノイズとなるようなデータを利用しないようにする技術も必要である。
|