研究課題/領域番号 |
23300040
|
研究機関 | 国立情報学研究所 |
研究代表者 |
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
|
研究分担者 |
正田 備也 長崎大学, 工学(系)研究科(研究院), 准教授 (60413928)
|
研究期間 (年度) |
2011-04-01 – 2014-03-31
|
キーワード | テキストマイニング / 情報統合 / 情報検索 |
研究概要 |
本研究はテキストの構造情報および時間情報を考慮した情報アライメント法を構築するとともに利用者の利便性を高めるpush型の情報システムへの適用を通してその有効性を評価することを目的としている。 平成24,25年度は、昨年度検討を行った時間情報を活用するアライメントモデルを効率良く推定するための並列処理アルゴリズムの研究を行った。GPUを用いた並列推定アルゴリズムを実装し、学術論文で論じられているトピックの変遷を抽出する実験を行ったところ、単一プロセスでの処理と比較して100倍程度の高速化をはかれることがわかった。また、文書要約を目的としたニュース記事のトピックおよび主題検出問題に取り組み、語の出現頻度の時間変換に基づいたトピック抽出法を考案した。 push型情報システムとして平成23年度に引き続き情報推薦システムへの応用を試みた。情報推薦システムでは、利用者とアイテムの2種類のデータを中心に利用者の嗜好という観点からその相互関連性を抽出することが必要になる。平成24,25年度は、利用者、アイテムそれぞれに潜在トピックを用い、それぞれの特性をトピック集合上の確率分布として表すモデルを提案した。これにより限られたデータから多数の利用者とアイテムの関係性を記述することが可能になる。推薦システムでは、利用者とアイテムの組が与えられたときに、利用者がアイテムに与える評価スコアを予測することが必要になる。平成24,25年度は潜在トピックの確率分布から多項分布および非線形回帰分析を用いてスコアに変換する統計モデルを導入した。映画の推薦システムの評価に用いられるコーパスを用いてその効果を比較したところ、スコア予測精度はこの変換モデルにはあまり依存しないことが判明した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
評価用実験データの収集に当初の計画以上の時間を要したため研究計画に遅れたが生じたが、平成25年度に繰越すことによって当初の研究目標を達成した。
|
今後の研究の推進方策 |
最終年度の取り纏めに向けて、これまで行ってきた研究を統合し、push型情報提供システムを試作する。
|