2022 Fiscal Year Annual Research Report
Study on embedding representations of financial entities based on price and texts
Project/Area Number |
21H03493
|
Allocation Type | Single-year Grants |
Research Institution | The University of Tokyo |
Principal Investigator |
石井 久美子 (田中久美子) 東京大学, 先端科学技術研究センター, 教授 (10323528)
|
Co-Investigator(Kenkyū-buntansha) |
新谷 元嗣 東京大学, 大学院経済学研究科(経済学部), 教授 (00252718)
宮尾 祐介 東京大学, 大学院情報理工学系研究科, 教授 (00343096)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Keywords | 埋め込み表現 / 系列データ / 冪乗則 / 系列モデル |
Outline of Annual Research Achievements |
本研究の目的は、株銘柄など経済対象のベクトル表現を、数値データと非数値データから機械学習により獲得し、投資に寄与するデータ工学手法を探究することである。研究内容には、ベクトル表現に加え、それを入力する価格の系列モデルの二つがある。また、得られたベクトル表現は、ポートフォリオ、リスク評価、経済対象の関係マイニングなど、さまざまに応用が考えられる。本研究では、価格データの中でもコーパスが得やすい株、為替を対象とし、米国と日本のデータを利用して基礎研究を行う。 二年目は、研究代表者はイギリスのケンブリッジ大学にて在外研究を行った。本研究に関し、言語処理の視点、経済データの視点から、連携の可能性が拓けた。特に、後者については、日本とは別の連携も進んでいることから、共同研究の可能性を今後探る。 研究としては、二つの大きな成果が得られた。第一は、ポートフォリオ最適化について、当初の実証的な論文の理論的背景をまとめた論文を、トップジャーナルで発表したことである。ベクトル表現を一般化したヒルベルト空間を経済データ向けに提案し、その空間の持つ特性を数理的に明らかにした上で、実証的な成果を広く報告している。 第二は、ベクトル表現手法そのものの研究である。全く新しい表現方式を、初年度最後に考案し、二年目に機械学習分野のトップ会議で発表した。通常の表現は、線形ベクトル空間における表現となっているが、本研究では、関数として対象を表現する。現在は、単語一般の表現となっているが、今後はこれを、経済対象の表現へと拡張する。 この他、三年目以降に成果発表が持ち越されている事前研究を複数行った。リスク評価における自然言語の役割や、高リスクのイベント(fat tail)を鑑みた新しい系列モデルなどである。三年目以降に研究発表に繋げていく。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究自体の進捗としては順調であるが、コロナ禍を原因とする変更・遅延があった。また、代表者が所属機関を移籍することとなった。 コロナ禍については、未だ多くの会合がzoom化され、旅費は二年目も全額使用には至らなかった。また、世界的に半導体が不足しており、機器類の入手に時間がかかる実態がある。これに加え、代表者が所属機関を移籍することとなった。研究計画上、まったく予想されていなかった事態である。移籍に際してオーバーヘッドが生じた上、機器類の整備を後ろ倒しし、新しい機関で行わざるをえなくなった。以上から、二年目は研究を加速することはできなかった。 とはいえ、研究の進捗は順調である。特に、事前研究を含めると研究の取り組み自体は、研究計画どおり進んでいる。三年目は新しい研究組織において、機器類の整備を進め、期間後半に研究の加速が可能であると思われる。
|
Strategy for Future Research Activity |
三年目は、研究代表者が大学を移籍し、研究環境を改めて整備する。系列モデルの研究を行うためにGPUを搭載したサーバを整備する。研究計画にしたがって、期間後半に向けて研究を加速させる。 その上で、基礎研究を二つ、応用研究を三つ行う。基礎研究としては、第一に、ベクトル表現手法そのものの研究である。全く新しい表現方式を、二年目に機械学習分野のトップ会議で発表した。三年目以降は、この方式を株価や為替など経済データにも活用する方向性を見出し、株価ならびに為替の経済対象を扱う上で効果的な表現方式を検討する。 第二は、系列モデルの研究である。特に、株価や為替の系列データをニューラルネットワークを利用してGauss過程に変換し、系列予測を改善する研究を行ってきている。二年目に、本研究は大きく深化し、この変換を利用することで、低頻度事象(fat tail)が従来手法よりも的確に捉えられていることが明らかとなった。三年目以降は、この系列モデルを成果としてまとめ、また、テキスト情報をこの系列モデルに組み込み、現在得られている結果の改良を目指す。 応用研究としては、第一に、ポートフォリオについては、二年目にトップジャーナルで成果発表したことで一段落し、今後のさらなる応用、ならびに、成果を発信するサイト基盤の活用に向け新組織で道を見出す。 第二に、リスク評価については、テキスト情報が経済データにどのように寄与するかを、経済対象の表現を利用して明らかにする研究を進める。投資リスクが大きい状況下では、テキスト情報がリスクを抑え予測性能向上に寄与するとの予想が初年度より得られている。三年目以降に具体的な実証結果の成果発表を目指す。 第三に、関係マイニングについては、計画どおり三年目以降に方向性を見出す。ベクトルの内積が関係を端的に表現しているため、その値を活用する方向性を見出す。
|
Research Products
(2 results)