研究概要 |
言語資源をもとにしたデータ主導型の言語処理は,特定の言語に依存することなく,普遍的な方法論を提供する。その一方で,統計的な処理をすることからデータの稀薄性の問題が生ずる。言語現象を解明するに十分なデータが得られなければ処理結果の信頼性は失われる。 本研究では,第一に,インターネット上のハイパーテキスト(インターネット・コーパス)を言語資源として使い,その内包する言語情報を抽出し,計量的な言語処理を行う言語解析モデルを提案した。第二に,実験を通し,その手法の有効性を検証した。第三に,言語資源としての通常のコーパスとインターネット・コーパスの比較優位性の評価をした。 日本語の複合語の構造分析,中国語の単語分割上でのあいまい性の解消,英語の単語の意味のあいまい性の解消等のモデル,実験結果では,インターネット・コーパスの言語資源としての有効性,有意性が明らかになった。
|