2001 Fiscal Year Annual Research Report
多項関係としての格標識共起知識の獲得とそれに基づく日本語文構文解析に関する研究
Project/Area Number |
12780287
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
永井 秀利 九州工業大学, 情報工学部, 助手 (60237485)
|
Keywords | 格標識 / 共起知識 / 日本語 / 構文解析 / 動詞の用法 / 用法的多義性 / 用法のモデル化 / 係り受け関係 |
Research Abstract |
本研究は,動詞と単一の格要素との共起性(単項関係としての共起知識)ではなく,ある動詞が文を形成する際にどのような格要素の集合とどの程度共起しやすしかという言語知識(多項関係としての共起知識)を獲得し,解析に応用することを目的とする.そのため,本研究では,動詞の用法のモデル化により,十分とは言えない量のサンプルデータから,できるだけ妥当性の高い共起知識を低コストで獲得する手法を提案した. 動詞の用法を捉える場合,動詞の多義性に基づく用法の違いを考慮する必要がある.ところが,動詞の多義性の識別まで行っているコーパスはほとんど存在しないため,この職去の違いが獲得される知識の品質低下の原因となる可能性が高い. そこで本研究では,提案した動詞の用法のモデルに適合するようにクラスタリングによって動詞の用法的多義性の識別を行い,用法ごとの共起知識を獲得する手法を提案した. 本手法の有効性の評価は,文を構成する各格標識の係り先を推定する実験によって行った.クラスタリング前後での精度の違いを比較すると,1位正解率で8%程度の改善が見られた.また,すべての格標識の係り先が正しいという文単位での正解が,解の上位何位までに含まれているかを示す累積正解率で比較した場合も,明らかに,より高い順位で正解が出現するようになった.例えば動詞4個が含まれる文において,クラスタリング前では上位10個でも82%程度の累積正解率であるのに対し,クラスタリング後では94%弱に達した.さらに,順位1位の解における格標識単位での正解率においても,クラスタリング前後で81%程度から85%強に改善することができた.実験の結果は,本手法の有効性を十分に示していると言える. 今後は,さらなる精度の向上を進めると同時に,一般利用に耐えうる量の動詞の知識獲得や新たな応用手法の開発を目指す予定である.
|
Research Products
(2 results)
-
[Publications] 嘉壽毅, 永井秀利, 中村貞吾, 野村浩郷: "動詞と格標識の多項関係知識に基づく動詞のクラスタングとその評価"情報処理学会第63回全国大会講演論文集. 4H-1 (2001)
-
[Publications] 嘉壽毅, 永井秀利, 中村貞吾, 野村浩郷: "係り受け解析実験による動詞と格標識との多項関係共起知識の評価"情報処理学会研究報告. 2001-NL-141. 13-20 (2001)