Research Abstract |
本研究は,動詞と単一の格要素との共起性(単項関係としての共起知識)ではなく,ある動詞が文を形成する際にどのような格要素の集合とどの程度共起しやすしかという言語知識(多項関係としての共起知識)を獲得し,解析に応用することを目的とする.そのため,本研究では,動詞の用法のモデル化により,十分とは言えない量のサンプルデータから,できるだけ妥当性の高い共起知識を低コストで獲得する手法を提案した. 動詞の用法を捉える場合,動詞の多義性に基づく用法の違いを考慮する必要がある.ところが,動詞の多義性の識別まで行っているコーパスはほとんど存在しないため,この職去の違いが獲得される知識の品質低下の原因となる可能性が高い. そこで本研究では,提案した動詞の用法のモデルに適合するようにクラスタリングによって動詞の用法的多義性の識別を行い,用法ごとの共起知識を獲得する手法を提案した. 本手法の有効性の評価は,文を構成する各格標識の係り先を推定する実験によって行った.クラスタリング前後での精度の違いを比較すると,1位正解率で8%程度の改善が見られた.また,すべての格標識の係り先が正しいという文単位での正解が,解の上位何位までに含まれているかを示す累積正解率で比較した場合も,明らかに,より高い順位で正解が出現するようになった.例えば動詞4個が含まれる文において,クラスタリング前では上位10個でも82%程度の累積正解率であるのに対し,クラスタリング後では94%弱に達した.さらに,順位1位の解における格標識単位での正解率においても,クラスタリング前後で81%程度から85%強に改善することができた.実験の結果は,本手法の有効性を十分に示していると言える. 今後は,さらなる精度の向上を進めると同時に,一般利用に耐えうる量の動詞の知識獲得や新たな応用手法の開発を目指す予定である.
|