2009 Fiscal Year Annual Research Report
Project/Area Number |
07J01864
|
Research Institution | The University of Tokyo |
Principal Investigator |
ボッレーガラ ダヌシカ The University of Tokyo, 大学院・情報理工学系研究科, 特別研究員(PD)
|
Keywords | 関係抽出 / ウェブマイニング / クラスタリング / 共クラスタリング / エンティティ / 外延的定義 / 内包的定義 / アルゴリズム |
Research Abstract |
二つの対象物(エンティティ)間の関係Rを定義するためには2種類の方法がある。一つの方法はその関係にあるエンティティのペアを挙げることである(外延的定義,extensional definition)。もう一方の方法は関係Rを語彙パターンで表現することである(内包的定義,intensional definition)。本研究では、この双対となる関係の定義に基づくクラスタリング手法を提案し、それを用い関係抽出を行う。提案するクラスタリング手法の一つの特徴としては語彙パターンとentityペアを「同時に」クラスタリングすることであり、このように「お互い何らかの制約を満たしている二つの量を同時にクラスタリングする」クラスタリングアルゴリズムは統一的にco-clustering(共クラスタリング)アルゴリズムと呼ばれている。本研究もこのco-clusteringアルゴリズムの一種であり、関係の異なる定義の双対性という制約に基づいて実現する点に特徴がある。教師なし学習であるクラスタリングによるので、訓練用データを必要としない。co-clusteringによりentityペアの関係種別クラスタリングに使う特徴量となる語彙パターンも同時にクラスタリングするので、特徴次元を圧縮し安定的なクラスタリングを可能にする特徴をゆうする。Webのような膨大なテキストコーパスからエンティティ間の関係を抽出する際に、膨大な数のエンティティペアと語彙パターンを同時にco-clusteringする必要があるため計算量の小さいアルゴリズムが重要である。本研究ではオーダー0(nlogn)の計算量でco-clusteringできるsequential co-clusteringアルゴリズムを提案し評価した。
|
Research Products
(5 results)