2020 年度実施状況報告書

テキストデータからの情報抽出を利用した金融時系列予測

研究課題

研究課題/領域番号	19K01597
研究機関	統計数理研究所
研究代表者	川崎能典統計数理研究所, モデリング研究系, 教授 (70249910)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	テキストデータ / 動的トピックモデル / 時系列モデル / 高頻度データ / 実現ボラティリティ / Heterogeneous自己回帰
研究実績の概要	令和元年度に、多重スケール動的トピックモデル(MDTM)の枠組みにおける単語分布を、計量ファイナンスを意識して日次、週次、月次に対応するタイムスケールとする方法を実装した。今年度の目標は、ソフトウェア実装に基づに日次ボラティリティ予測の改善可能性を検討することであったが、概ね順調に進展した。その結果を以下に要約する。まず、予測対象となる金融資産データはTOPIXの高頻度データで、その標本期間は2008年1月から2012年12月とした。一方、テキストデータは同時期のロイタージャパンのニュースデータをWebスクレイピングして抽出したものを用いた。オリジナルのMTDM(Iwata et al., 2010)でタイムスケールを2としたモデルと、2, 6, 21と取ったモデルとで、それぞれ最大20までトピックを抽出し、トピックスコア時系列(こちらも20系列)を作成した。後者をHeterogeneous MDTMと呼ぶこととする。日次ボラティリティ予測のためのモデルは、heterogeneous自己回帰(HAR)モデルとその変種を中心に6種用意し、全てに1個目のトピックスコア時系列を説明変数として追加する。(当然MDTMとHeterogeneous MDTMでは抽出されるトピック時系列に違いがある。)予測手法は固定区間シフト型と区間拡大型の2種類、予測評価はPattonの誤差関数QLIKEに依った。 6種類の時系列モデルの平均で、固定区間シフト型のケースはMDTMの誤差関数の平均で見るとHMDTMが優れているように見える一方、区間拡大型のケースでは、HMDTMが金融時系列予測のための適切なテキスト情報抽出法になっている可能性が垣間見えた。ここまでの結果は、国際会議CEQURA 2020で発表した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由令和元年度の目標は、多重スケール動的トピックモデルにおいて単語分布を多重スケールで保持する際に、機械的に2の冪乗で展開して適当なところで打ち止めするのではなく、heterogeneous自己回帰からの類推で、日次、週次、月次という、ある意味カスタムな多重スケールの取り方の有効性について試験的な分析を行うことにあった。令和2年度はそのプログラム実装を完了し、様々な設定で予測精度の比較を行うことができ、「研究実績の概要」に示した結果を得た。また、結果を国際会議で発表することができたので、概ね順調に進展していると判断した。
今後の研究の推進方策	MDTMにしろHMDTMにしろ定式化の探索を深めていくことが重要である。区間拡大型でモデルを推定した場合には、MDTMとHMDTMの予測性能の差は微妙であった。6種類の時系列モデルの平均で、固定区間シフト型のケースはMDTMの誤差関数の平均は0.720に対してHMDTMの誤差関数の平均は0.248とかなり小さく、HMDTMが優れているように見える。一方、区間拡大型のケースでは、MDTMの誤差関数の平均は0.265、HMDTMでは平均0.224となり、その差は小さいものの、HMDTMが金融時系列予測のための適切なテキスト情報抽出法になっている可能性を示した。このような場合には、誤差関数の値に基づく記述統計値で比較するのでなく、差が統計的に有意かどうかを推論する必要がある。これに関しては、モデル信頼集合の形成によるモデル選択を行うことが考えられる。最終年度では多数の予測シミュレーションを実行し、何が予測の決定要因たり得るのかを探索する。トピック時系列の選択に関しては、今年度行った予測検証では1つ目のトピック時系列を恣意的に選択して比較しただけで、それが最適予測をもたらすと信じる理由はない。トピック時系列の選択に関しては多くの問題が残されているので、今後取り組むべき課題である。
次年度使用額が生じた理由	2020年8月にアメリカ合衆国フィラデルフィアでの国際会議Joint Statistical Meeting 2020で研究発表を行う予定で、旅費を計上していたところ、新型コロナウイルスの感染拡大防止の観点からオンラインでの開催となった。発表は行った。また、2020年1月にドイツ連邦共和国ミュンヘンでの国際会議CEQURA 2020で研究発表を行う予定であったが、これも新型コロナウイルスの影響でオンライン会議となり、発表は行ったものの旅費は執行しなかった。本申請課題も令和3年度が最終年であるが、予測精度を左右する様々な条件を変化させながらシミュレーション(予測模擬実験)を繰り返さないと、一定の説得力を持った学術的結論に到達しえない可能性が明らかになってきたので、令和3年度は早々に計算資源に研究費を投じ、期間内に所定の結論に至るよう努める。

研究成果
(4件)

すべて 2020

すべて学会発表 (4件) (うち国際学会 2件)

[学会発表] On a HAR-type Specification in Dynamic Topic Model and its Application in Volatility Forecasting2020
- 著者名/発表者名
  Kawasaki, Y. and Morimoto, T.
- 学会等名
  11th CEQURA Conference 2020 on Advances in Financial and Insurance Risk Management
- 国際学会
[学会発表] Examining the Effects of Expanded Trading Hours Using High Frequency Data in Finance2020
- 著者名/発表者名
  Kawasaki, Y.
- 学会等名
  Joint Statistical Meeting (JSM) 2020
- 国際学会
[学会発表] A bias-reduced GARCH-EVT approach for financial risk estimation2020
- 著者名/発表者名
  貝淵響，川崎能典，Gilles Stupfler
- 学会等名
  2020年度統計関連学会連合大会
[学会発表] RS-Decomp2020
- 著者名/発表者名
  川崎能典
- 学会等名
  2020年度R研究集会(統計数理研究所共同利用研究集会「データ解析環境Rの整備と利用」)

2020 年度 実施状況報告書

テキストデータからの情報抽出を利用した金融時系列予測

研究代表者

川崎 能典 統計数理研究所, モデリング研究系, 教授 (70249910)

現在までの達成度 (区分)

理由

研究成果

[学会発表] On a HAR-type Specification in Dynamic Topic Model and its Application in Volatility Forecasting2020

著者名/発表者名

学会等名

[学会発表] Examining the Effects of Expanded Trading Hours Using High Frequency Data in Finance2020

著者名/発表者名

学会等名

[学会発表] A bias-reduced GARCH-EVT approach for financial risk estimation2020

著者名/発表者名

学会等名

[学会発表] RS-Decomp2020

著者名/発表者名

学会等名

2020 年度実施状況報告書

川崎能典統計数理研究所, モデリング研究系, 教授 (70249910)