2010 Fiscal Year Annual Research Report
統計モデリングとデータマイニングに基づくネットワーク化知識の創出と活用
Project/Area Number |
20300038
|
Research Institution | Kobe University |
Principal Investigator |
江口 浩二 神戸大学, システム情報学研究科, 准教授 (50321576)
|
Co-Investigator(Kenkyū-buntansha) |
高須 淳弘 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
大川 剛直 神戸大学, システム情報学研究科, 教授 (30223738)
|
Keywords | 統計モデリング / データマイニング / 情報検索 / 確率的トピックモデル / 確率的言語モデル / 適合モデル / グラフマイニング / 複雑ネットワーク分析 |
Research Abstract |
本課題は、統計モデリング技術とデータマイニング技術を駆使・拡張し、断片的に散在した情報コンテンツから、人間の知的活動に直接活用可能なネットワーク化知識を創出し、活用する手段の確立をめざす。この目的のもと、平成22年度は、以下の研究項目に取り組んだ。 1.意見情報において話題に関する記述とそれに関する意見に関する記述に着目し、統計的言語モデルに基づいた意見情報検索モデルを拡張して、局所文脈を考慮したスムージング法を開発し、その意見文検索における効果を定量的に評価した。 2.カテゴリ木構造における各頂点に文書群が割り当てられたテキストデータコレクションに対して、カテゴリ木構造を考慮しつつ潜在トピックを推定する手法を実現した。また、階層的テキスト分類すなわち新たに追加された文書をカテゴリ構造上の頂点に割り付ける問題に適用した。 3.頂点または辺に定量的アイテム集合をもつ単一グラフを対象とした頻出パターン発見アルゴリズムを実現した。また、テキスト属性付きネットワークデータに対してテキスト属性に潜在するトピックの分布を発見し、その構造的なパターンを効率的に獲得するシステムを実現し、評価を行った。 4.潜在トピックモデルの高速な推定のために、分散共有メモリ環境においてMPI/OpenMPハイブリッド並列化によるギブスサンブリング・アルゴリズムを実現し、非並列の場合と同程度の精度を維持しつつ、高い効率化を実現した。
|
Research Products
(12 results)