研究課題/領域番号 |
19K01597
|
研究機関 | 統計数理研究所 |
研究代表者 |
川崎 能典 統計数理研究所, モデリング研究系, 教授 (70249910)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | テキストデータ / 動的トピックモデル / 時系列モデル / 高頻度データ / 実現ボラティリティ / Heterogeneous自己回帰 |
研究実績の概要 |
今年度の目標は、多重スケール動的トピックモデル(MDTM)の枠組みにおける単語分布を、計量ファイナンスを意識して日次、週次、月次に対応するタイムスケールとする方法を実装し、それに基づく日次ボラティリティ予測の改善可能性を検討することであったが、概ね順調に進展した。その結果を以下に要約する。 まず、予測対象となる金融資産データはTOPIXの高頻度データで、その標本期間は2008年1月から2012年12月とした。一方、テキストデータは同時期のロイタージャパンのニュースデータをWebスクレイピングして抽出したものを用いた。オリジナルのMTDM(Iwata et al., 2010)でタイムスケールを2としたモデルと、2, 6, 21と取ったモデルとで、それぞれ最大20までトピックを抽出し、トピックスコア時系列(こちらも20系列)を作成した。後者をHeterogeneous MDTMと呼ぶこととする。 日次ボラティリティ予測のためのモデルは、heterogeneous自己回帰(HAR)モデルとその変種を中心に6種用意し、全てに1個目のトピックスコア時系列を説明変数として追加する。(当然MDTMとHeterogeneous MDTMでは抽出されるトピック時系列に違いがある。)予測手法は固定区間シフト型と区間拡大型の2種類、予測評価はPattonの誤差関数QLIKEに依った。 6種類の時系列モデルの平均で、固定区間シフト型のケースはMDTMの誤差関数の平均は0.720に対してHMDTMの誤差関数の平均は0.248とかなり小さく、HMDTMが優れているように見える。一方、区間拡大型のケースでは、MDTMの誤差関数の平均は0.265、HMDTMでは平均0.224となり、その差は小さいものの、HMDTMが金融時系列予測のための適切なテキスト情報抽出法になっている可能性を示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度の目標は、多重スケール動的トピックモデルにおいて単語分布を多重スケールで保持する際に、機械的に2の冪乗で展開して適当なところで打ち止めするのではなく、heterogeneous自己回帰からの類推で、日次、週次、月次という、ある意味カスタムな多重スケールの取り方の有効性について試験的な分析を行うことにあった。実際に年度内に実装は完了し、「研究実績の概要」に示した結果を得たので、概ね順調に進展していると判断した、
|
今後の研究の推進方策 |
今年度行った外挿予測の比較実験においては、MDTMでタイムスケール2は明らかに小さく、もう少し大きくする余地がある。比較の基盤はできたので、MDTMにしろHMDTMにしろ定式化の探索を深めていくことが重要である。 区間拡大型でモデルを推定した場合には、MDTMとHMDTMの予測性能の差は微妙であった。このような場合には、誤差関数の値に基づく記述統計値で比較するのでなく、差が統計的に有意かどうかを推論する必要がある。これに関しては、モデル信頼集合の形成によるモデル選択を行うことが考えられる。 トピック時系列の選択に関しては、今年度行った予測検証では1つ目のトピック時系列を恣意的に選択して比較しただけで、それが最適予測をもたらすと信じる理由はない。トピック時系列の選択に関しては多くの問題が残されているので、今後取り組むべき課題である。
|
次年度使用額が生じた理由 |
2020年3月にシンガポール国立大学で研究発表を行う予定で、旅費を計上していたところ、2020年1月になって先方(シンガポール国立大学)が旅費・滞在費を負担する旨申し出があり、受諾したことで支出予定がなくなった。この段階で他に学会への参加予定を増やす日程的余地はなく、次年度に別の機会での研究発表のために使用するのが適当と考えた。次年度使用額については、経緯を考えれば次年度内の新たな研究発表の機会に利用したいところではあるが、新型コロナウイルスの感染状況次第では、研究遂行に資する物品購入や役務提供への支出変更を行う可能性がある。
|