Project/Area Number |
19K01597
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 07030:Economic statistics-related
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2019: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | テキストデータ / 高頻度データ / 動的トピックモデル / 時系列モデル / 多重スケール / ボラティリティ予測 / 実現ボラティリティ / Heterogeneous MDTM / Heterogeneous自己回帰 / 時系列予測 / ボラティリティ / 自然言語処理 / 潜在ディリクレモデル / トピックモデル |
Outline of Research at the Start |
本研究では、ニュース記事などのテキストデータからマーケットのセンチメントやブームを抽出し、金融資産の変動性の予測のためのモデリングと実証分析を行う。単語分布の重み付けでトピック(話題)が成り立っていると想定する一方、テキスト内の単語分布が時系列的な過去依存性を持つとする。資産変動性の予測は、日次、週次、月次と複数のタイムスケールを持つ時系列モデルにトピック指数を説明変数として投入し、変数選択を行う。また、これを各時点で繰り返すことで、各トピックの特徴付け・解釈を試みる。また、テキスト情報の一日の切れ目を変えることで、取引終了から取引開始までの情報累積効果の多寡を検証する。
|
Outline of Final Research Achievements |
We studied a statistical modeling method to improve volatility forecasts by extracting trends in "topics" that may be related to changes in financial assets from a series of text data (e.g., daily newspaper articles) and by incorporating them into a volatility forecasting model. In particular, we proposed a method to explicitly incorporate daily, weekly, and monthly multiple time scales. The effectiveness of the proposed method was empirically studied through simulated forecasts, and the proposed method was superior in about 35% of the total experimental cases.
|
Academic Significance and Societal Importance of the Research Achievements |
テキストデータ解析の方法自体は潜在ディリクレ分配法を筆頭にさまざまな研究がなされているが、多くは時点を固定した分析であり、テキスト系列からの動的な情報抽出に関する研究は多くない。本研究は経済統計学のテーマ設定で、金融資産の変動性予測の問題とテキスト解析を結びつけて考えたが、時間軸に沿ってテキストデータが流れてくる状況で、そこから抽出された情報を別の予測目的に結びつける問題は他にもあると思われ、今後異分野での展開が期待できる。
|