研究課題/領域番号 |
23300039
|
研究種目 |
基盤研究(B)
|
研究機関 | 神戸大学 |
研究代表者 |
江口 浩二 神戸大学, システム情報学研究科, 准教授 (50321576)
|
研究分担者 |
高須 淳弘 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
大川 剛直 神戸大学, システム情報学研究科, 教授 (30223738)
|
キーワード | 統計的機械学習 / 情報検索 / ネットワーク分析 / データマイニング / 確率的トピックモデル / 混合メンバシップモデル / グラフィカルモデル / マルコフ連鎖モンテカルロ法 |
研究概要 |
本研究課題は、内部構造または外部構造を持つテキストデータやネットワークデータに対して潜在的な構造を発見する技術を開発することを目的とする。ここでいう内部構造とは、テキストデータについては各単語トークンが離散属性で特徴づけられたものを指し、ネットワークデータについては各辺または頂点が離散属性で特徴づけられたものを指す。また、外部構造の例としては、木やグラフで表現されたカテゴリ構造における各頂点にテキストデータが割り当てられたものが挙げられる。以上に述べたような複雑な構造をもつ大規模データから低次元の潜在変数表現を推定することで、情報検索、リンク予測などの様々な問題に利用可能な「知識」を抽出することを目指す。平成23年度は主として下記の項目の研究を実施した。 1.Wikipedieaを典型とする多言語間で比較可能なデータを対象とし、言語を横断したトピック構造を発見する問題に取り組んだ。特定の事物や人物に関する複数言語にわたる説明記事群を1つの文書と見なし、各言語を属性と見なして、属性間の依存性を考慮した潜在変数モデルを仮定することにより、言語横断的なトピック構造を推定することに成功した。 2.ネットワークデータに対して、各頂点の潜在グループを確率分布で表現して辺の生成過程をモデル化する混合メンバシップ・ブロックモデルを、補助情報が与えられた状況下での情報推薦の問題に適用し、従来手法と比較して統計的に有意な精度改善を実現した。 3.カテゴリ木構造における各頂点に文書群が割り当てられたデータコレクションから、潜在トピックを発見する問題に取り組んだ。それに適した潜在変数モデルの未知パラメータをマルコフ連鎖モンテカルロ法によって推定する過程で、カテゴリの粒度(部分木の高さ)に関するモデル選択を導入した。予備実験により、提案方法を用いることで推定精度が改善することを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
交付申請書に記載した研究計画にそって研究が進展したため。
|
今後の研究の推進方策 |
今年度は本研究課題の関連領域において実績のある米国カーネギーメロン大学の研究グループと議論を行った。来年度も同様に実施することで、本研究課題を効率的に推進できることが期待される。
|