Project/Area Number |
07J01864
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Intelligent informatics
|
Research Institution | The University of Tokyo |
Principal Investigator |
ボッレーガラ ダヌシカ The University of Tokyo, 大学院・情報理工学系研究科, 特別研究員(PD)
|
Project Period (FY) |
2007 – 2010
|
Project Status |
Completed (Fiscal Year 2009)
|
Budget Amount *help |
¥2,800,000 (Direct Cost: ¥2,800,000)
Fiscal Year 2009: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2008: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2007: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | 関係抽出 / ウェブマイニング / クラスタリング / 共クラスタリング / エンティティ / 外延的定義 / 内包的定義 / アルゴリズム / 類似性 / 類似度尺度 / 関係類似性 / analogy / 曖昧性解消 / 機械学習 / Web Mining / 類似度計算 / 別名問題 / referential ambiguity / polysemy / 情報抽出 / Web検索 |
Research Abstract |
二つの対象物(エンティティ)間の関係Rを定義するためには2種類の方法がある。一つの方法はその関係にあるエンティティのペアを挙げることである(外延的定義,extensional definition)。もう一方の方法は関係Rを語彙パターンで表現することである(内包的定義,intensional definition)。本研究では、この双対となる関係の定義に基づくクラスタリング手法を提案し、それを用い関係抽出を行う。提案するクラスタリング手法の一つの特徴としては語彙パターンとentityペアを「同時に」クラスタリングすることであり、このように「お互い何らかの制約を満たしている二つの量を同時にクラスタリングする」クラスタリングアルゴリズムは統一的にco-clustering(共クラスタリング)アルゴリズムと呼ばれている。本研究もこのco-clusteringアルゴリズムの一種であり、関係の異なる定義の双対性という制約に基づいて実現する点に特徴がある。教師なし学習であるクラスタリングによるので、訓練用データを必要としない。co-clusteringによりentityペアの関係種別クラスタリングに使う特徴量となる語彙パターンも同時にクラスタリングするので、特徴次元を圧縮し安定的なクラスタリングを可能にする特徴をゆうする。Webのような膨大なテキストコーパスからエンティティ間の関係を抽出する際に、膨大な数のエンティティペアと語彙パターンを同時にco-clusteringする必要があるため計算量の小さいアルゴリズムが重要である。本研究ではオーダー0(nlogn)の計算量でco-clusteringできるsequential co-clusteringアルゴリズムを提案し評価した。
|
Report
(3 results)
Research Products
(17 results)