研究概要 |
本研究課題の第一年度目であった平成22年度ではエンティティ間の関係抽出に関する研究を展開した。関係抽出を行う際に教師あり学習が教師なし学習に比べ、より良い精度を出しているが、ウェブのような多様な関係が膨大な数存在するドメインに関してはその全ての関係に関する学習データを人手で作成することは不可能であり、教師あり学習を使うには限界がある。そこで、本研究では対象とする関係に関するエンティティペアをいくつかのみ(シードという)を与えることで関係抽出を行う方法を考案した。提案手法により関係Aを抽出するために学習させた関係抽出器を別の関係Bを抽出するために適応できることが可能となった。提案手法ではまずエンティティペアに含まれる2つのエンティティ間の関係を語彙パターンを使って表現する。語彙パターンはその2つのエンティティが共起する文脈から部分シーケンスとして抽出する。次に、一つの関係についてのみ出現する語彙パターンと様々な関係について出現する語彙パターンをパターンのエントロピーを用いて分類する。パターンのエントロピーはあるパターンがどのようなエンティティペアと一緒に出現するかというパターンの出現頻度分布から計算できる.あるパターンが沢山のエンティティペアと一緒に出現すればその出現頻度分布が平らになり,エントロピーが高くなる.このことを利用し,語彙パターンを分類することができる.数多くのエンティティペアと共起する語彙パターンは様々な意味的関係をカバーできていると考えられるため,そのようなパターンをピボットとして使い,転移学習を行うことができる.次に、同一エンティティペアについて抽出される異なる語彙パターンをエッジで繋げることによりパターンをノードとする2部グラフを構築する。2つの語彙パターン(グラフ上ではノード)はある同一のエンティティペアに対して共起していればそれらのノードをエッジで繋ぐことにする.尚,本提案手法ではエッジの重みはそのエッジが繋ぐ2つの語彙パターンを同時に満たす異なるエンティティペアの数にした.この2部グラフは関係に依存する語彙パターンと関係に依存しない語彙パターンの間の対応関係を示しているものだと考えられる。最後にこの2部グラフのグラフラプラシアンを計算することでどの関係に依存するパターンがどの関係に依存しないパターンに対応しているかを計算する。この対応関係が分かると例えばある関係Aを抽出するために学習させた学習器を別の関係Bを抽出するために使うことができる。評価実験では20種類の異なる関係について評価を行い、様々なベースライン手法と先行研究と比較した。本研究成果はウェブの分野の最高蜂の国際会議であるInternational World Wide Webや人工知能分野の最高峰の国際会議であるInternational Joint Conference on Artificial Intelligenceにて論文として採択されており国外でも高く評価された。
|