• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実施状況報告書

集合知に基づくVI上昇予測モデルの実用化に向けたパイロットプラントの構築

研究課題

研究課題/領域番号 20K01863
研究機関新潟国際情報大学

研究代表者

梅原 英一  新潟国際情報大学, 経営情報学部, 教授 (00645426)

研究分担者 諏訪 博彦  奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (70447580)
小川 祐樹  立命館大学, 情報理工学部, 講師 (40625985)
研究期間 (年度) 2020-04-01 – 2023-03-31
キーワード日経VI予測モデル / 自然言語処理 / 機械学習 / 株式市場 / ソーシャルメディア
研究実績の概要

本年度は言語モデルの拡張を行った。第一に、これまでのLDAは単語の出現頻度のみを見るため、ドキュメント間の類似性と語順は考慮されていない。そこで、短い文書に有効なDoc2Vecと文書の語順を考慮できるBERTを試した。また機械学習アルゴリズムはロジスティック回帰とランダムフォレストに加え、LightGBMを試した。実験結果は、LightGBMのDoc2Vecの64次元で、正と負の例の比率を3:7にダウンサンプリングすることで、適合率が0.24、再現率は0.28、F値は 0.26となった。
第二に、Sparse Composite Document Vector (SCDV)を用いて文書分散表現の獲得にトライした。本研究ではベースラインとして Simple Word-Embedding-based Model(SWEM)を用いた。SWEMとは word2vecにより得られた文書中の単語埋め込みの各配列を単純に加算や平均して文書分散表現を獲得する手法である。実験の結果、SWEM を用いた手法は、適合率が 0.19、再現率が0.56、F値が0.28となった。この結果、SWEMがノイズの多い文書に対してLDA、Doc2Vec、BERTよりもパフォーマンスが良いことを示した。
第三に、SCDVの分散表現はセンチメント情報が失われている可能性がある。そこで、SCDV での埋め込み表現に感情情報を反映させるように、SSCDVと名付けた新たな文書分散表現獲得手法を提案した。SSCDV では、文書のトピック情報とセンチメント情報の相乗効果により、文書のより豊富なセマンティクスを捉えた埋め込み表現を獲得することを目的とする。実験の結果、SSCDVを用いたモデルが最も精度が良く、適合率が0.19、再現率が0.53、F値が0.28 となった。

現在までの達成度 (区分)
現在までの達成度 (区分)

4: 遅れている

理由

新型コロナ感染拡大の影響で、2020年度から我々がヤフー社内へ入館することは禁止された。2021年度半ばまではヤフーの本番サーバにアクセスすることができなかった。ヤフーデータの個人情報保護のために、ヤフー本番サーバにアクセスするには、我々がヤフーの東京本社か大阪の現地に出向く必要があった。しかし、2021年度半ばからは、緊急措置として、人数を限定してインターネット経由でヤフーサーバにアクセスが可能となった。不自由ではあるが、現在はこの環境で研究を進めている。

今後の研究の推進方策

第1に、現在は、自然言語処理のロジックの見直しと機械学習のロジック見直しを行っている。今後は、我々が開発したSSCDVをベースにヤフーサーバのパイロットプラントへの環境構築を行ってゆく。
第2に、SSCDVの改良・見直しを行ってゆく。現在のデータ期間は、2012年11月から2022年2月までである。下げ相場の正例が少ない。2017年まではF1が0.45を示したが、2021年まで拡張すると0.28と下がった。ダウンサンプリング等を検討する必要がある。
第3に、日経新聞の新聞記事によるVI上昇予測とSNSによる上昇予測を比較してゆく必要がある。この面でどちらが有効かの検証を行ってゆく。
第4に、ボラティリティ・トレーデングの売買シミュレーションを2022年まで期間を拡張することで、実際にどのくらいの利益を得ることができたかの検証を行う必要がある。現在まで、言語モデル・機械学習と複数の手法がある。またデータソースもヤフー株式掲示板と日経新聞記事と複数ある。実際に、どれくらいの収益をそれぞれ得ることができるかの検証を行う。

次年度使用額が生じた理由

新型コロナ感染症の流行により、ヤフーサーバへのアクセスが2021年前半までできなかった。これはヤフーの個人情報保護対策のため、ヤフー社内への入館が必要であったためである。しかし、2021年前半で、ヤフー社内の個人情報保護対策が変更され、限定ではあるが、リモートでのアクセスが可能になった。現在は、リモートアクセスで研究を継続している。このため、2020年-2021年前半は、本番サーバへのアクセスができなかった。この結果、本番サーバを使わない分析が中心となった。このため研究の遅れが生じてしまった。
学会発表も国際会議などがオンライン化されるなど厳しい状況におかれているが、今後は、この遅れを取り戻す。

  • 研究成果

    (5件)

すべて 2022 2021

すべて 学会発表 (5件) (うち国際学会 1件)

  • [学会発表] 金融指標予測のためのソーシャルメディアに適した 分散表現獲得手法の検討2022

    • 著者名/発表者名
      上田 健太郎,諏訪 博彦,小川 祐樹,梅原 英一,山下 達雄,坪内 孝太,安本 慶一
    • 学会等名
      第28回社会情報システム学シンポジウム
  • [学会発表] 日経VI予測のためのソーシャルメディアの 感情とトピックを用いた文書分散表現獲得手法の提案2022

    • 著者名/発表者名
      上田 健太郎,諏訪 博彦,小川 祐樹,梅原 英一,山下 達雄,坪内 孝太,安本 慶一
    • 学会等名
      社会システムと情報技術研究ウィーク2022(WSSIT2022)
  • [学会発表] Prediction of Nikkei VI increase for reducing investment risk using Yahoo! JAPAN stock BBS2021

    • 著者名/発表者名
      Ueda Kentaro、Sasaki Kodai、Suwa Hirohiko、Ogawa Yuki、Umehara Eiichi、Yamashita Tatsuo、Tsubouchi Kota、Yasumoto Keiichi
    • 学会等名
      The 6th International Workshop on Application of Big Data for Computational Social Science in WI-IAT 2021
    • 国際学会
  • [学会発表] 電子図書館のビジネスモデルとTCO予測シミュレーション2021

    • 著者名/発表者名
      梅原英一,富岡雄大
    • 学会等名
      日本印刷学会2021年研究発表大会
  • [学会発表] 東京都市大学の電子図書館の TCO2021

    • 著者名/発表者名
      梅原英一,富岡雄大
    • 学会等名
      2021年経営情報学会全国研究発表大会

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi