研究課題/領域番号 |
23300040
|
研究種目 |
基盤研究(B)
|
研究機関 | 国立情報学研究所 |
研究代表者 |
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
|
研究分担者 |
正田 備也 長崎大学, 工学(系)研究科(研究院), 准教授 (60413928)
|
キーワード | 機械学習 / 確率モデル / 情報推薦 / トピックモデル |
研究概要 |
本研究はテキストの構造情報および時間情報を考慮した情報アライメント法を構築するとともに利用者の利便性を高めるpush型の情報システムへの適用を通してその有効性を評価することを目的としている。 本年度は、テキストの時間情報を活用するアライメントモデルの研究を行った。ここでは、テキストの特徴を比較的少数の潜在トピックを用いて表現することによって、効果的にテキスト情報を活用することを目指している。テキストの背景にあるトピックは時間とともに大きく変化することが予想される。そこでトピックの集合はすべての時間に共通であるが、その流行は時間とともに変化すると考えてモデルを構築した。このモデルはトピックの比率を表す多項分布と、トピックと実際のテキスト中に現れる語との関係を表す多項分布を用いて構成される。ここで、トピックの比率を表す多項分布を時間の関数と考えモデルのパラメタを推定するベイズ推定法を開発した。学術論文や新聞記事などのテキストを用いて評価実験を行い、確率モデルの評価指標の一つであるperplexityを用いて他のモデルと比較をしたところ、高いperplexityを持つモデルが得られることが実験的に示された。 潜在トピックモデルの情報推薦システムへの適用を図った。推薦システムでは、利用者の嗜好性を表すratingデータより、各利用者のモデルを得る必要がある。しかし、利用者から得られるratingのデータは非常に限られており、結果としてモデルの推定に利用できるデータには多くの欠損値が含まれることになる。そこで、比較的少数の潜在トピックを用いることによって、限られたデータから各利用者の嗜好性の特徴を得ることを試みた。映画のデータを用いた評価実験によって、潜在トピックは特にrating数が少ない場合に他の方法と比較して効果的な利用者の特徴が得られることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度計画していたアライメントモデルの構築の課題、特に、時間の情報を活用したモデルについては、当初計画どおりにモデルの構築を行うことができた。また、push型の情報システムへの応用として、推薦システムをとりあげ、その課題の一つである欠損値を補うのに提案の枠組みが有効であることを示すことができ、この点についても計画通りに研究を進めることができた。評価に当たっては、当初計画以上に大規模データを収集することが必要であることが判明したため、平成24年度もデータの収集を継続した。
|
今後の研究の推進方策 |
平成23年度と同様に、基本的なモデルの構築・展開とプッシュ型情報システムへの応用を通した評価を研究分担者とともにすすめる。データの収集、評価実験については、大学院学生等による研究補助を強化する。
|