• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

テキストデータに対する高次元小標本回帰問題へのトピックモデルに基づくアプローチ

Research Project

Project/Area Number 15K12149
Research InstitutionUniversity of Tsukuba

Principal Investigator

山本 幹雄  筑波大学, システム情報系, 教授 (40210562)

Project Period (FY) 2015-04-01 – 2017-03-31
Keywords回帰モデル / supervised LDA / LASSO / 状態空間モデル / 検索行動量
Outline of Annual Research Achievements

本年度は予測モデルの定式化と、小規模なデータによる予備実験を実施した。
(1)モデルの定式化ではSupervised LDA(以下、sLDA)を用いた自動車販売台数の予測手法を定式化すると共に、WebやSNSのテキストデータ以外のデータを組み合わせる手法を検討した。sLDAを用いた手法では、自動車販売のシェアをトピックの重み比率として、各自動車の販売台数を予測する手法を考案した。学習法としては、マイクロブログのデータを入力としてその時点の自動車販売台数のシェア割合を出力とする教師データから教師あり学習を行う手法を考案した。また、テキストデータ以外のWeb上のデータとして検索行動量に注目し、これを状態空間モデルによって自動車販売数予測を行う手法を考案した。
(2)基本手法の性能を測定するために、マイクロブログのテキストデータ(出現回数上位1万単語の月毎の出現回数)からの自動車販売台数予測実験を行った。基本手法としては、単純な重回帰、LASSO、sLDAを用いた提案手法を用いた。データとしては、マイクロブログのテキストデータ約20億件の投稿を用い、2010年3月1日から2012年12月31日までの2年分を学習区間とし、それ以降2013年7月31日までの7ヶ月をテスト区間とした予備実験を行った。実験の結果、単純な重回帰手法は性能が悪く、予想通りLASSOやsLDAを用いた手法の性能が高いことが分かった。
(3) 評価データの拡充については順調に進み、マイクロブログの投稿データの2015年度分(おおよそ全データ(日本語)の5%をサンプリングしていると推定される)、自動車販売数データについても2015年度分を新たに整備した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

実際の予測実験を行う段階で、マイクロブログのデータが極めてノイジーであることが分かった。特に、自動車販売においては販売促進のためのマイクロブログの利用が活発であり、販売促進による発言、あるいはボットと呼ばれる機械的に生成された発言を取り除く操作をしなければ、精度のよい予測は困難である。このため、初年度はマイクロブログデータのクリーニグに大きな時間をかけてしまい、本格的なモデルの検討に入れなかった。クリーニグは現在も継続中であるが、ある程度のところで見切りを付けて、次年度は早めにモデルの検討に入りたい。
一方、Webの検索行動量を状態空間モデルで取り込み予測する手法の性能が想像以上に高いことが判明した。この部分については、当初の計画以上に順調に進展しており、次年度の発展が確実に期待できる。

Strategy for Future Research Activity

マイクロブログデータのクリーニングを進めながら、遅れているモデルの検討を進める。また、同時に当初の計画通り、様々な手法を同じデータで評価することにより、各種モデル(基本とする手法単体、提案する組み合わせ、状態空間モデル)の長所・短所、用いるデータ(テキストと検索行動量の時系列)の効果の違いを実験的に明らかにしていく計画である。また、マクロブログデータのクリーニングを自動化するための、ノイズを除去するモデルの開発もクリーニングの進捗次第では検討する。
初年度の研究で、マイクロブログのテキストデータを用いた予測よりも、検索行動量の時系列を用いて状態空間モデルで予測するモデルの性能が極めて高いことが分かった。このため、基本的な研究推進方策としては、検索行動量を状態空間モデルで予測する手法をベースとし、これをテキストデータの情報によってさらに性能を高める手法の開発を研究の軸として研究を推進していく。手法としては、状態空間モデルの設計に自由度があるため、(1)テキストデータのトピックモデルを用いた要約量を直接外部変数として統合する手法、(2)テキストデータの要約量をトレンド成分等に分解し、一部の成分を統合する手法など、複数の手法を検討する計画である。
データの拡充については、自動車販売台数データに対して2016年度もこれまで同様の拡充を行う計画である。マイクロブログのサンプリングデータについては、取得対象としていたサービスのサンプリングに対するポリシーが7月頃に変更になる可能性があり(有料化等)、その時点で今後の計画を再検討する。

Causes of Carryover

3月末に研究成果発表のために学会に出席する予定であったが、入試業務のために参加できなくなったことにより、未使用額が生じた。

Expenditure Plan for Carryover Budget

未使用額は、データ整備のために必要となる計算機の購入費に当てる計画である。

  • Research Products

    (1 results)

All 2016

All Presentation (1 results)

  • [Presentation] 検索行動量を用いた自動車販売台数予測に必要な学習期間の長さについての分析2016

    • Author(s)
      山口太一、角田孝昭、津川翔、山本幹雄
    • Organizer
      電子情報通信学会大会
    • Place of Presentation
      九州大学(福岡県)
    • Year and Date
      2016-03-18

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi