2009 Fiscal Year Annual Research Report
大規模な語彙意味構造辞書をコーパス主導で開発する研究
Project/Area Number |
19700130
|
Research Institution | The University of Tokyo |
Principal Investigator |
宮尾 祐介 The University of Tokyo, 情報理工学系研究科, 助教 (00343096)
|
Keywords | 自然言語処理 / 意味構造 |
Research Abstract |
平成21年度は,実テキストに対して動詞の語彙意味クラスを自動認識する技術について調査・研究を行った.英語については語彙意味構造辞書VerbNet,およびVerbNet意味クラスが付与されたコーパスSemLinkが構築されており,これらのリソースを利用した研究が行われている.特に,SemLinkコーパスを学習データとしてVerbNet意味クラスを自動認識する研究では,SemLinkのテストデータに対して高い精度(90%以上)を達成している.この手法を実装しその有効性を検証したところ,SemLinkコーパスに存在する語(既知語)に対しては高精度を達成するが,SemLinkに存在しない語(未知語)や,SemLinkコーパス以外のテキストに対しては著しく精度が低下することが観察された.この結果については,生命科学テキストに対して同様の実験を行った関連研究においても同様の観察がされている.したがって,一つの分野のテキストにおいては語とその意味クラスとの対応関係が固定的であり,意味クラスの高精度な自動認識のためには高被覆な辞書を構築することが本質的であると考えられる.これらの調査結果から,本研究では辞書の確率モデルを学習する手法を提案した.このとき,VerbNetを学習データとし,特徴量は生コーパスから抽出した統計量を用いる.これにより,未知語(VerbNetには存在しないが生コーパスには存在する語)についての確率が推定されるため,生コーパスに存在する任意の動詞について意味クラスの高精度な認識が可能となる.VerbNetを用いた実験では,本手法により意味クラス辞書の確率モデルを学習することができることが示された.
|
Research Products
(1 results)