2021 Fiscal Year Annual Research Report
Study on embedding representations of financial entities based on price and texts
Project/Area Number |
21H03493
|
Allocation Type | Single-year Grants |
Research Institution | The University of Tokyo |
Principal Investigator |
石井 久美子 (田中久美子) 東京大学, 先端科学技術研究センター, 教授 (10323528)
|
Co-Investigator(Kenkyū-buntansha) |
新谷 元嗣 東京大学, 大学院経済学研究科(経済学部), 教授 (00252718)
宮尾 祐介 東京大学, 大学院情報理工学系研究科, 教授 (00343096)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Keywords | ベクトル表現 / 投資 / 埋め込み表現 / 深層学習 / 文書 |
Outline of Annual Research Achievements |
本研究の目的は、株銘柄など経済対象のベクトル表現を、数値データと非数値データから機械学習により獲得し、投資に寄与するデータ工学手法を探究することである。研究内容には、ベクトル表現に加え、それを入力する価格の系列モデルの二つがある。また、得られたベクトル表現は、ポートフォリオ、リスク評価、経済対象の関係マイニングなど、さまざまに応用が考えられる。本研究では、価格データの中でもコーパスが得やすい株、為替を対象とし、米国と日本のデータを利用して基礎研究を行う。初年度は、事前研究として行った、ベクトル表現獲得とそのポートフォリオへの応用の一般化と詳細な研究が目的となっていた。 初年度はまず、研究の立ち上げを行った。データの整備、計算機環境の整備を行った。初年度の体制は、博士課程2年次の学生1名と、修士の学生2名で実質的な研究を行い、自然言語処理、並びに経済学の共同研究者にアドバイスをいただきながら進めた。 研究内容としては、予定通り、事前研究の発展に務めた。自然言語処理では一般的な、テキスト情報からのベクトル表現技術を、株価を予測することを通して獲得することに転用した。予測性能自体は向上しないが、得られたベクトル表現を株ポートフォリオに用いると、大きな利益が得られることが、事前研究において示されていた。事前研究では米国ニューヨーク市場株だけで行っていたが、多国の市場に拡張し、理論的に一般化したものを雑誌論文として投稿した。この論文は、年度の途中に条件付き採録となっているが、コロナ禍を原因として雑誌側の対応が遅れており、採録には至っていない。 事前研究は国際会議として論文発表したものがあったが、これに対しては、世界中から問い合わせが相次いだ。このため、ポートフォリオ配信サイトを構築し、その公開に向けて準備を進めている。 初年度は、この他、2年度に向けて、新しい研究の基礎研究を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究自体の進捗としては順調であるが、研究を下支えする活動が、コロナ禍を原因とする変更・遅延が見られる。コロナ禍により、全ての会合がzoom化され、旅費はほとんど使用することがなかった。また、論文の査読は、通常ならば数ヶ月で終わると雑誌側からアナウンスされているが、投稿論文の査読が完了せず、このため、初年度の論文成果は、1編の条件付き査読に限られる結果となった。 対外的にはコロナ禍で困難ではあったが、研究自体は、むしろ順調に進めることができた。上述のように、事前研究の発展は雑誌論文として進め、ポートフォリオ配信サイトを構築して産業移転の可能性を今後探っていくための基盤が構築された。また、2年目以降の研究の事前研究として、系列モデルの研究、並びに、為替データの整備を進め、応用として、リスク評価をするための基礎アイデアを試行錯誤した。 以上、初年度の進捗としては、順調である。
|
Strategy for Future Research Activity |
今後は、研究計画に沿って、三つの新しい研究に取り組む。第一に、系列モデルを探求する。第二に、データを株価以外のものに拡張する。第三に、応用として、リスク評価や関係マイニングを行うことが予定されている。いずれも期間2年目に研究を開始する。 第一の系列モデルについては、既存のモデルを再考すること、並びに、新しい系列モデルを構築することが考えられる。既存のモデルとしては、ニューラルネットワークを用いて確率的にボラティリティ系列をモデル化するNSVMが知られる。今後これを基礎的に再検討した上で、文書のベクトル表現を扱うようにNSVMを拡張する。また、新しいモデルとしては、ニューラルネットワーク技術を用いて、他のアプローチが複数考えられる。現在、試行錯誤途中であり、2年目以降に実現可能性を明らかにする。 第二のデータの拡張については、株価の扱いの拡張と、株価以外のデータの考察が挙げられる。株価の扱いについては、直接の株価以外に、ボラティリティ、つまり株価リターンの分散の系列を考察の対象とすることができる。また、事前研究ではデータはニューヨーク株式市場だけであったが、他の市場に拡張することが可能であり、他市場については初年度の雑誌論文で研鑽を積んだ。さらに株価に加えて、それとは異なる為替も考察対象とすることが研究予定には含まれている。初年度に整備を進めたデータを用い、2年目以降は考察対象をこれらに広げる。 第三の応用については、獲得されたベクトル表現そのものから、株や為替の間の関係を捉える方法を考える。特に、本研究は価格データと文書データを融合させて処理を行うものであるが、文書の中には投資リスクの要因は言葉として表現されていることから、投資リスクの見積もりの精度を価格データだけの場合に比べ、大幅に向上させることができると思われる。2年目に以上のアイデアを具体化する研究を行う。
|
Research Products
(2 results)