本年度は、テキストデータからの回帰手法と自動車販売台数の予測を切り分けて研究を行った。 (1)テキストデータからの数値予測を行う手法としてsupervised LDA(以下、sLDA)を基本とし、様々な回帰手法を組み合わせて高次元小標本回帰手法を検討した。sLDAは高次元なテキストデータをトピックと呼ばれる低次元空間に縮約し、トピック割合(確率)から回帰を行う手法である。トピック割合の共線性(相関)の問題を解決するために、トピック割合からの回帰に代表的な縮小推定手法であるリッジ回帰、Lasso、エラスティックネット、主成分回帰の4つを取り上げ、それぞれをsLDAと組み合わせる手法を検討した。実際のデータを用いた性能比較から、トピック空間は低次元ながらやはり縮小推定を用いる方が高い精度が出ることが分かった。特に学習データが少ない場合は、単純なリッジ回帰でも十分に安定して高い性能が出ることが分かった。学習データ量が多くなってくるとより複雑なLassoやエラスティックネットなどの縮小推定手法が優位になってくることを明らかにした。 (2)自動車販売台数の予測については、昨年度に検索行動量を用いた時系列モデリングが予測精度改善に効果的であることが分かったため、今年度は状態空間モデルをさらに改良し、評価実験を行った。評価実験では、検索行動量としてGoogle TrendとWikipediaのページ閲覧数を用いた。実験対象とした22車種の販売台数予測実験において、15車種に対して検索行動量を取り入れたモデルの性能向上を確認した。また、改良したモデルの中では、特に検索行動量に対する状態空間モデル中の重みを動的に変更する手法が高い性能を上げることを実験的に示した。
|