研究課題/領域番号 |
10780220
|
研究種目 |
奨励研究(A)
|
配分区分 | 補助金 |
研究分野 |
知能情報学
|
研究機関 | 東京大学 |
研究代表者 |
鳥澤 健太郎 東京大学, 大学院・理学系研究科, 助手 (70282712)
|
研究期間 (年度) |
1998 – 1999
|
研究課題ステータス |
完了 (1999年度)
|
配分額 *注記 |
2,100千円 (直接経費: 2,100千円)
1999年度: 300千円 (直接経費: 300千円)
1998年度: 1,800千円 (直接経費: 1,800千円)
|
キーワード | 言語習得 / 文法学習 / クラスタリング / Categorial Grammar / 主辞駆動句構造文法 / 統計的構文解析 / 言語学習 / 文法フォーマリズム / 極限における同定 / 統計処理 / 機械学習 / 計算論的学習理論 / シソーラス |
研究概要 |
本研究の目標は、範疇文法を用いた自然言語のための学習モデルの定式化であり,定式化に際しては、学習成功のクライテリアである「極限における同定」に注目して研究を行った。また、将来的に定式化したモデルを、自然言語処理に応用するため、範疇文法の拡張であり、かつ範囲疇文法よりも柔軟な文法形式である主辞駆動句構造文法の実用化に向けた研究も行った。本研究で定式化された言語学習モデルは、この主辞駆動句構造文法を介して自然言語処理の改良、発展に貢献するであろう。より具体的に研究した内容について述べると、まず、一点めとしては、範疇文法での範疇(カテゴリー)をコーパスから学習する研究を行った。この研究では、新聞1年分のテキストコーパスから、動詞、副詞などの品詞、およびサ変名詞、時間、主体、組織、道具、場所、量/強度などを指し示す名詞などの語クラスを生成することができた。また、生成に際して使用した学習アルゴリズムは、ある語分類のクラスにたいして「極限における同定」が可能であることを証明した。さらにこのような語クラスを埋め込んだ文法の学習アルゴリズムを考えることができ、語クラスの極限における同定の可能性から、語クラスが埋め込まれた文法の学習アルゴリズムの極限における同定も同様に証明することができる。また、コーパスから生成された語クラスの精度の検証は、2通りの方法でおこなわれた。まず、被験者を用いた適合率/再現率の評価を行い、良好な結果をえた。同時に先に言及した主辞駆動句構造文法による構文解析器に統計的曖味性解消機構を融合したシステムを開発し、このシステムに語クラスを導入して、人手で生成した語分類とほぼ同等の精度向上が見られることを確認した。
|