研究概要 |
本研究では,他の研究で見られるような述語と単一の格要素との共起性(単項関係としての共起知識)ではなく,ある述語が文を形成する際にどのような格要素の集合とどの程度共起しやすいかという言語知識(多項関係としての共起知識)を獲得し,これを日本語文解析に応用することを目的とする. 多項関係としての格標識共起知識獲得において,格標識の各組合せの頻度を純粋に統計的に得ることは,必要なサンプルデータ量の点から非現実的である.そこで本研究では,サンプルデータは常に不足状態にあるという前提の下に,述語の用法のモデル化により,できるだけ妥当性の高い共起知識を低コストで獲得する手法を提案した. 研究用データとしては,人手で修正された信頼性の高い京都大学テキストコーパスを用いた.格標識として,格助詞を中心とした17種の助詞系列を対象とした場合に加え,「に対して」などのように格助詞相当に用いられている語句の21種を格助詞相当語句とした場合についても共起知識獲得を行った.格助詞相当語句を追加した場合でも,本研究での対象に合わせて構築したクラスタリング手法は,改善の余地はあるものの,ほぼ良好に機能することを確認した. 更に,構文解析への応用の一環として,獲得した知識に基づいて格標識の係り先を推定する実験を行った.この実験では,サンプル不足によってクラスタ分割が行えないというワーストケースを鑑み,クラスタリングを行わなずに得た知識を用いた.実験結果は,同条件下としては十分に良好なものであった.また,助詞系列だけの場合と,格助詞相当語句も含めた場合との比較も行った. 次年度は,今年度の実験から判明した課題に基づき,モデルの改善や知識獲得規模の拡大,クラスタリングによって生じる曖昧性の解消を含めた解析などの研究を進める予定である.
|