研究課題/領域番号 |
20K01863
|
研究機関 | 新潟国際情報大学 |
研究代表者 |
梅原 英一 新潟国際情報大学, 経営情報学部, 教授 (00645426)
|
研究分担者 |
諏訪 博彦 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (70447580)
小川 祐樹 立命館大学, 情報理工学部, 講師 (40625985)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 日経VI予測モデル / 自然言語処理 / 機械学習 / 株式市場 / ソーシャルメディア |
研究実績の概要 |
本年度は言語モデルの拡張を行った。第一に、これまでのLDAは単語の出現頻度のみを見るため、ドキュメント間の類似性と語順は考慮されていない。そこで、短い文書に有効なDoc2Vecと文書の語順を考慮できるBERTを試した。また機械学習アルゴリズムはロジスティック回帰とランダムフォレストに加え、LightGBMを試した。実験結果は、LightGBMのDoc2Vecの64次元で、正と負の例の比率を3:7にダウンサンプリングすることで、適合率が0.24、再現率は0.28、F値は 0.26となった。 第二に、Sparse Composite Document Vector (SCDV)を用いて文書分散表現の獲得にトライした。本研究ではベースラインとして Simple Word-Embedding-based Model(SWEM)を用いた。SWEMとは word2vecにより得られた文書中の単語埋め込みの各配列を単純に加算や平均して文書分散表現を獲得する手法である。実験の結果、SWEM を用いた手法は、適合率が 0.19、再現率が0.56、F値が0.28となった。この結果、SWEMがノイズの多い文書に対してLDA、Doc2Vec、BERTよりもパフォーマンスが良いことを示した。 第三に、SCDVの分散表現はセンチメント情報が失われている可能性がある。そこで、SCDV での埋め込み表現に感情情報を反映させるように、SSCDVと名付けた新たな文書分散表現獲得手法を提案した。SSCDV では、文書のトピック情報とセンチメント情報の相乗効果により、文書のより豊富なセマンティクスを捉えた埋め込み表現を獲得することを目的とする。実験の結果、SSCDVを用いたモデルが最も精度が良く、適合率が0.19、再現率が0.53、F値が0.28 となった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
新型コロナ感染拡大の影響で、2020年度から我々がヤフー社内へ入館することは禁止された。2021年度半ばまではヤフーの本番サーバにアクセスすることができなかった。ヤフーデータの個人情報保護のために、ヤフー本番サーバにアクセスするには、我々がヤフーの東京本社か大阪の現地に出向く必要があった。しかし、2021年度半ばからは、緊急措置として、人数を限定してインターネット経由でヤフーサーバにアクセスが可能となった。不自由ではあるが、現在はこの環境で研究を進めている。
|
今後の研究の推進方策 |
第1に、現在は、自然言語処理のロジックの見直しと機械学習のロジック見直しを行っている。今後は、我々が開発したSSCDVをベースにヤフーサーバのパイロットプラントへの環境構築を行ってゆく。 第2に、SSCDVの改良・見直しを行ってゆく。現在のデータ期間は、2012年11月から2022年2月までである。下げ相場の正例が少ない。2017年まではF1が0.45を示したが、2021年まで拡張すると0.28と下がった。ダウンサンプリング等を検討する必要がある。 第3に、日経新聞の新聞記事によるVI上昇予測とSNSによる上昇予測を比較してゆく必要がある。この面でどちらが有効かの検証を行ってゆく。 第4に、ボラティリティ・トレーデングの売買シミュレーションを2022年まで期間を拡張することで、実際にどのくらいの利益を得ることができたかの検証を行う必要がある。現在まで、言語モデル・機械学習と複数の手法がある。またデータソースもヤフー株式掲示板と日経新聞記事と複数ある。実際に、どれくらいの収益をそれぞれ得ることができるかの検証を行う。
|
次年度使用額が生じた理由 |
新型コロナ感染症の流行により、ヤフーサーバへのアクセスが2021年前半までできなかった。これはヤフーの個人情報保護対策のため、ヤフー社内への入館が必要であったためである。しかし、2021年前半で、ヤフー社内の個人情報保護対策が変更され、限定ではあるが、リモートでのアクセスが可能になった。現在は、リモートアクセスで研究を継続している。このため、2020年-2021年前半は、本番サーバへのアクセスができなかった。この結果、本番サーバを使わない分析が中心となった。このため研究の遅れが生じてしまった。 学会発表も国際会議などがオンライン化されるなど厳しい状況におかれているが、今後は、この遅れを取り戻す。
|