研究概要 |
グラフ構造に対する新規の生成モデルを開発した.自然言語処理とグラフ構造の親和性は古くから言われており,グラフ構造に対する柔軟な生成モデルを研究することは重要である.今回提案したモデルでは,単語の多義性を考慮した現象をグラフ構造でモデル化できる点で新しい.具体的な今回のグラフ構造としては,単語をノード,単語間の関係をエッジとしたものを考える.グラフ構造を用いて単語をクラスタリングすることで,単語の意味クラスを抽出する研究がこれまで行われてきた.しかし,これまでの研究では単語の多重性を考慮していないという問題がある.したがって,各ノードに対して意味クラスを示す潜在変数を用意し,さらに多重にクラスが割り当てられるモデルを提案した.つまり,ノードの多重クラスタリングを行うことができるグラフ構造の生成モデルを提案した.具体的には,リンク先に応じて,意味クラスが変わるモデルになっている.ここで問題なのは,1つのノード(単語)に対し,幾つのクラスを割り当てるのがよいかということである.この個数は,当然,ノード(単語)によって異なる.このような問題に対して,Hierarchical Dirichlet processというノンパラメトリックベイズで幅広く用いられている確率過程によって,各ノードの意味クラスをモデル化することで意味クラス数の自動決定を行った.英語の文書コーパスから作成した単語をノードとするグラフデータを用いて実験したところ,従来のグラフのノードクラスタリング手法(ハードクラスタリング)と比べて、高い精度の意味クラスを抽出することができた.意味クラスの評価には英語シソーラスWordNetを用いた.本研究は,データマイニングの最難関の国際会議であるSIG-KDD2008に採択され口頭発表を行った.
|