本研究はテキストの構造情報および時間情報を考慮した情報アライメント法を構築することを目的する。本研究では情報アライメントを実現するために確率的なモデルを用いるが、問題に適したモデルを求める作業は、これまで主に研究者や技術者の経験に基づいてアドホックに定義されることが多かった。本研究では個別モデルの構築からモデル構築法へ視点を変えることによって、系統的なモデル設計法の実現を目指す。 本研究で用いる潜在トピックモデルは、テキストなどの離散的な情報を扱うことが多い。一方、本研究の主要な応用である推薦システムでは利用者の評価スコアなどの連続値も扱う必要がある。これまでも、実数値を扱う潜在トピックモデルの研究は行われてきたが、本研究では回帰分析とトピックモデルの融合を試みた。具体的には、support vector regressionと利用者およびアイテムを生成する潜在トピックモデルを組み合わせる方法を考案し、映画に関する大規模評価用コーパスを用いた評価実験を行った。評価スコアの予測精度については若干ではあるが性能向上をはかることができた。 次に、学術情報固有の課題として、この研究の成果を共同研究者の推薦問題に応用した。この研究では、研究者が新たな研究をスタートする際に適切な共同研究グループを推薦することを目的とした。研究者および研究グループがこれまでに発表した論文から潜在トピックを抽出し、研究者および研究グループ間の特徴の類似度に基づいて推薦を行うものである。このモデルは、論文に含まれるテキスト情報だけでなく、共著ネットワークも用いた点に特徴がある。大規模学術論文データセットを時間軸に沿って2つのグループに分割し、古いデータセットでモデル推定し、新しいデータセットにおける共著の予測を行ったところ共著ネットワークおよび研究者の所属情報が推薦に有効であることがわかった。
|