研究課題/領域番号 |
15K12149
|
研究機関 | 筑波大学 |
研究代表者 |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
研究期間 (年度) |
2015-04-01 – 2017-03-31
|
キーワード | 回帰モデル / supervised LDA / LASSO / 状態空間モデル / 検索行動量 |
研究実績の概要 |
本年度は予測モデルの定式化と、小規模なデータによる予備実験を実施した。 (1)モデルの定式化ではSupervised LDA(以下、sLDA)を用いた自動車販売台数の予測手法を定式化すると共に、WebやSNSのテキストデータ以外のデータを組み合わせる手法を検討した。sLDAを用いた手法では、自動車販売のシェアをトピックの重み比率として、各自動車の販売台数を予測する手法を考案した。学習法としては、マイクロブログのデータを入力としてその時点の自動車販売台数のシェア割合を出力とする教師データから教師あり学習を行う手法を考案した。また、テキストデータ以外のWeb上のデータとして検索行動量に注目し、これを状態空間モデルによって自動車販売数予測を行う手法を考案した。 (2)基本手法の性能を測定するために、マイクロブログのテキストデータ(出現回数上位1万単語の月毎の出現回数)からの自動車販売台数予測実験を行った。基本手法としては、単純な重回帰、LASSO、sLDAを用いた提案手法を用いた。データとしては、マイクロブログのテキストデータ約20億件の投稿を用い、2010年3月1日から2012年12月31日までの2年分を学習区間とし、それ以降2013年7月31日までの7ヶ月をテスト区間とした予備実験を行った。実験の結果、単純な重回帰手法は性能が悪く、予想通りLASSOやsLDAを用いた手法の性能が高いことが分かった。 (3) 評価データの拡充については順調に進み、マイクロブログの投稿データの2015年度分(おおよそ全データ(日本語)の5%をサンプリングしていると推定される)、自動車販売数データについても2015年度分を新たに整備した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
実際の予測実験を行う段階で、マイクロブログのデータが極めてノイジーであることが分かった。特に、自動車販売においては販売促進のためのマイクロブログの利用が活発であり、販売促進による発言、あるいはボットと呼ばれる機械的に生成された発言を取り除く操作をしなければ、精度のよい予測は困難である。このため、初年度はマイクロブログデータのクリーニグに大きな時間をかけてしまい、本格的なモデルの検討に入れなかった。クリーニグは現在も継続中であるが、ある程度のところで見切りを付けて、次年度は早めにモデルの検討に入りたい。 一方、Webの検索行動量を状態空間モデルで取り込み予測する手法の性能が想像以上に高いことが判明した。この部分については、当初の計画以上に順調に進展しており、次年度の発展が確実に期待できる。
|
今後の研究の推進方策 |
マイクロブログデータのクリーニングを進めながら、遅れているモデルの検討を進める。また、同時に当初の計画通り、様々な手法を同じデータで評価することにより、各種モデル(基本とする手法単体、提案する組み合わせ、状態空間モデル)の長所・短所、用いるデータ(テキストと検索行動量の時系列)の効果の違いを実験的に明らかにしていく計画である。また、マクロブログデータのクリーニングを自動化するための、ノイズを除去するモデルの開発もクリーニングの進捗次第では検討する。 初年度の研究で、マイクロブログのテキストデータを用いた予測よりも、検索行動量の時系列を用いて状態空間モデルで予測するモデルの性能が極めて高いことが分かった。このため、基本的な研究推進方策としては、検索行動量を状態空間モデルで予測する手法をベースとし、これをテキストデータの情報によってさらに性能を高める手法の開発を研究の軸として研究を推進していく。手法としては、状態空間モデルの設計に自由度があるため、(1)テキストデータのトピックモデルを用いた要約量を直接外部変数として統合する手法、(2)テキストデータの要約量をトレンド成分等に分解し、一部の成分を統合する手法など、複数の手法を検討する計画である。 データの拡充については、自動車販売台数データに対して2016年度もこれまで同様の拡充を行う計画である。マイクロブログのサンプリングデータについては、取得対象としていたサービスのサンプリングに対するポリシーが7月頃に変更になる可能性があり(有料化等)、その時点で今後の計画を再検討する。
|
次年度使用額が生じた理由 |
3月末に研究成果発表のために学会に出席する予定であったが、入試業務のために参加できなくなったことにより、未使用額が生じた。
|
次年度使用額の使用計画 |
未使用額は、データ整備のために必要となる計算機の購入費に当てる計画である。
|