Study on embedding representations of financial entities based on price and texts
Project/Area Number |
23K21694
|
Project/Area Number (Other) |
21H03493 (2021-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2021-2023) |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Waseda University (2023-2024) The University of Tokyo (2021-2022) |
Principal Investigator |
石井 久美子 (田中久美子) 早稲田大学, 理工学術院, 教授 (10323528)
|
Co-Investigator(Kenkyū-buntansha) |
新谷 元嗣 東京大学, 大学院経済学研究科(経済学部), 教授 (00252718)
宮尾 祐介 東京大学, 大学院情報理工学系研究科, 教授 (00343096)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥16,900,000 (Direct Cost: ¥13,000,000、Indirect Cost: ¥3,900,000)
Fiscal Year 2025: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2024: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2023: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2022: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
|
Keywords | 埋め込み表現 / 株価データ / 自然言語処理 / 金融情報処理 / 系列データ / 冪乗則 / 系列モデル / ベクトル表現 / 投資 / 深層学習 / 文書 |
Outline of Research at the Start |
自然言語処理分野では、単語や文をベクトル表現を行い、工学に資することが一般的である。この技法を敷衍し、本研究では、株銘柄など経済対象のベクトル表現を、数値データと非数値の言語データから機械学習により獲得し、さまざまな経済データの動向の解析や予測に寄与するデータ工学手法を探究する。研究内容には、ベクトル表現に加え、それを入力する価格の系列モデルの二つがある。また、得られたベクトル表現は、ポートフォリオ、リスク評価、経済対象の関係マイニングなど、さまざまに応用が考えられる。本研究では、価格データの中でもコーパスが得やすい株、為替を対象とし、米国に加えて各国の市場のデータを利用して基礎研究を行う。
|
Outline of Annual Research Achievements |
三年目は、基礎研究を二つ、応用研究を三つ行った。 基礎研究としては、第一に、金融の財の長期的振る舞いをふまえた計算表現に関して国際会議成果が得られた。ベクトル表現は、機械学習分野で一般的なAttention機構を敷衍することにより得られる。数値データだけから同様の表現を得た場合に比べ、言語情報を利用して得られるベクトル表現は、付加的な情報を有しており、テキストが金融工学に有効であることが報告された。第二に、系列モデルの研究を行った。株価や為替の系列データをニューラルネットワークを利用してGauss過程に変換し、系列予測を改善する研究を行い、国際会議で発表した。本研究の発展に関して、引き続き次年度に雑誌論文発表を目指す。 応用研究としては、ポートフォリオ、リスク評価、関係マイニングの研究を行った。ポートフォリオについては、2年目にトップジャーナルで成果発表し、一段落している。ポートフォリオは応用でありながら、予測モデルや機械学習表現の評価手法として、国際的に定着しつつある。その一端として本研究成果があり、本研究でも、他研究の評価のためにポートフォリオを引き続き用いている。第二に、リスク評価については、テキスト情報の経済データに対する寄与に関する研究を進めた。テキスト情報がリスクを抑え予測性能向上に寄与するとの予想が、既存研究において知られ、また、本プロジェクトからも得られている。その概要に関して、証券アナリストジャーナルに発表した論文において記述した。今後は、リスク評価における自然言語の役割をより鮮明に計量すべく研究を進める。第三に、関係マイニングについては、2年目の発表論文に含めた、ベクトル表現を通して検証を行った。引き続き、次年度に研究を進める。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
期間当初のコロナ禍、その後の研究代表者の機関の異動は、研究の取り組みに予想外の事態であった。落ち着かない状況の中にあったが、研究は計画通りに進んでいる。本研究には、基礎と応用の項目があるが、当初の計画通りの取り組みが行われ、当初は予定に入っていなかった新しいアイデアや工夫も見出されている。異動先の所属機関の学生やスタッフが極めて協力的であり、3年目は国際会議3編と、国内ジャーナル1編と、これまで以上の成果が上がった。 科研費応募当初、機械学習を利用した金融データに関する研究の、国際状況は萌芽的であった。AIと金融に関する情報系の国際会議は、自然言語処理や人工知能の大国際会議に付帯して、小ワークショップが開催されるのみであった。雑誌論文も、経済学中心で機械学習を倦厭するものが多く、発表の場も得難い状況であった。このことから、本プロジェクトは当初、自然言語処理と経済学の研究者による助力を得ながら進めるものとして、スタートを切らざるを得なかった。 しかし、金融、言語、AIに関する学世界は、一気に進展した。大規模言語モデルの躍進を受け、金融分野には機械学習技術が標準的なものとして受け入れられるようになった。今年度はAI技術に基づく金融情報処理に関する国際会議が大規模に開かれた。自由に論文を投稿して発表を行い、フィードバックを直接的に得る場が確立した。 また、国内的にも、研究代表者が、証券アナリストジャーナルに論文招待を受け、金融・言語・AIの融合が進んでいる。総じて、自然言語処理やAIなどから、金融を焦点を当てた研究は、国際的に一分野として「自立」したのだと考えられる。 この状況変化を受け、本研究の自然言語処理の研究分担者との共同は、これまで活動の実態がなかったこともあり、三年目で終了とした。経済学の重鎮である分担者からは、引き続きアドバイスをいただきながら、残期間を進める。
|
Strategy for Future Research Activity |
今後も基礎研究として、ベクトル表現と系列モデルの研究、ならびに、応用研究としてポートフォリオ、リスク評価、関係マイニングの研究を行う。今後は研究のまとめを行っていく 基礎研究としては、第一に、テキストを数値データと共に用いると、数値データだけからは得られないベクトル表現が得られることがさまざまな財、また市場を問わず明らかとなってきた。獲得手法も、Attention機構が、一律に効果を奏することがわかってきている。最終年度は、ベクトル表現の得方をまとめながら、それを系列モデルに組み込む方法についてまとめる。第二に、系列モデルの研究としては、三年目に発表した分布の変換に基づく系列予測の研究には、未完成部分がある。また、前述のベクトル表現を組み込む方法に探求の余地がある。以上の研究課題に決着を付けると共に、4,5年目は新たに、新しい系列モデルも探究する。 応用については、第一に、ポートフォリオ研究がある。系列モデルや表現を評価するために、ポートフォリオはすでに世界的に一般的に用いられるようになった。残期間も、引き続きポートフォリオを評価方法として追究する。 第二に、リスク評価について、テキスト情報がリスクを抑え予測性能向上に寄与するとの予想は、系列モデルの探求などで間接的にしか明らかとなっていない。今後も、ボラティリティが大きい際の、テキストから得られるベクトル表現の役割を明らかにしていく。 最後に、経済対象の関係マイニングについては、財のベクトル表現が得られると、似た対象は似たベクトルになることを利用し、経済対象の関係を調べることができ、基礎研究論文の付帯情報として、発表を行なってきた。今後も同様に行う。 最後に、本年度も国際会議発信をさらに進め、また、研究の総まとめに向け、まとまった国際ジャーナル論文の発信に務める。
|
Report
(3 results)
Research Products
(8 results)