2020 Fiscal Year Research-status Report
Construction of Pilot Plant of VI Rise Prediction Model Based on Collective Intelligence
Project/Area Number |
20K01863
|
Research Institution | Tokyo City University |
Principal Investigator |
梅原 英一 東京都市大学, メディア情報学部, 教授 (00645426)
|
Co-Investigator(Kenkyū-buntansha) |
諏訪 博彦 奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (70447580)
小川 祐樹 立命館大学, 情報理工学部, 講師 (40625985)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 日経VI予測モデル / 自然言語処理 / 機械学習 / 株式市場 / ソーシャルメディア |
Outline of Annual Research Achievements |
2020年度は新型コロナ感染症のためヤフーの本番サーバにアクセスすることができなかった。ヤフー社内の本番サーバにアクセスするためには、ヤフーの東京本社か大阪オフィスに出社する必要があったためである。しかし、新型コロナの影響で我々のヤフー社内への入館が禁止された。このためヤフー本番サーバに構築する必要のあるパイロットプラント構築作業はできなかった。 そこで今年度は日経VI上昇予測のロジック改善の検討と、事例研究として株式市場のコロナショックの期間におけるヤフー株式掲示板の話題変化と株式指標との関係について分析した。 第1のロジック改善については、既存のLDA(Latent Dirichlet Allocation)に加え新たにDoc2VecとBERTを試みた。結果は、言語モデルの違いで精度向上は見られなかった。しかし、日経VI上昇は正解ラベルの数が極めて少ないという特徴がある。そこでダウンサンプリング(正例負例比率を3:7または5:5とする)とすると精度向上が見られた。そこで今後はダウンサンプリングの手法を検討することとする。 第2の株式市場におけるコロナショックとヤフー株式掲示板の投稿内容の分析については、これまで順調な上昇相場であった株式市場がコロナショックにより乱高下した。この時期の投稿内容の変化に着目し、日経VIとの関係を調べた。掲示板のトピック抽出にはLDAを用いた。この結果からトピックに関する相関係数が入れ変わっている点があることが観測された。そこで統計的手法であるクラスター分析を用いてトピックのグルーピングを行った。その結果、5グループに分かれた。日経VIが低い時には政治的なトピックが多いこと、トピックが入れ替わる時期には、第4グループが多く出現することが分かった。今後、この点を詳細に調査し、トピックに切り替わりタイミングを用いた日経VI上昇予測との関係を分析してゆく。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
新型コロナ感染拡大の影響で、我々がヤフー社内へ入館することは禁止された。このためヤフーの本番サーバにアクセスすることができなかった。ヤフーデータの個人情報保護のために、ヤフー本番サーバにアクセスするには、我々がヤフーの東京本社か大阪の現地に出向く必要があるためである。このため、ヤフー本番環境で開発が必要な実証用のパイロットプラントシステムの構築はできなかった。この点に関しては、東京および大阪の新型コロナ感染症がある程度収束してからでないと再開はできない。 そこで2020年度はヤフー本番サーバにアクセスしなくても分析可能な範囲で研究を行ってきた。
|
Strategy for Future Research Activity |
実証用のパイロットプラントシステムの構築は、東京・大阪の新型コロナ感染症が落ち着いて、我々がヤフー社内への入館が認められてからとなる。ヤフー本番サーバへのアクセスが許可された時点で再開する。現在の感染状況から判断すると、ワクチン接種が広く行われる夏以降になる可能性が高い。 それまでは、研究環境にある既存データを用いて、日経VI予測モデルの精度向上に努める。2020年度の成果を踏まえて、話題の変化タイミングの捕捉と正例負例の比率を検討する。また、この分野での国内会議等での対外発表も今年度は行ってゆく予定である。
|
Causes of Carryover |
新型コロナウイルス感染症拡大のため、共同研究契約を締結しているヤフーの本番サーバにアクセスすることができなかった。このため当初予定していた作業が行えなかった。作業を予定していた学生アルバイトの謝金や交通費等を使うことができなかった。ヤフー本番サーバを用いた分析が行えなかったので、学会発表等の旅費等も発生しなかった。 2020年度は手元にある開発環境での分析に限定して行った。学会発表も国内会議のみに限定した。主にオンライン会議であったので旅費等も発生しなかった。 新型コロナウイルス感染症が収束して、ヤフー本番サーバにアクセスできるようになれば,この研究の遅れを取り戻す予定である。このための費用を2020年度分から執行する予定である。
|
Research Products
(11 results)