延長後の研究期間の最終年度である2022年度においては,これまでの研究により得られた研究手法である(1)文書中の重要語の出現パターンを2値時系列データとしてとらえること,(2)その時系列データを生成する確率過程の性質を自己相関関数や待ち時間分布から調べること,の2点をより発展させた研究を行った.この際に,地震発生データなど長時間相関を持つ時系列データの記述に対して,正確な記述力・再現力を持つ点過程であるHawkes過程を援用して,Hawkes過程が文書中で出現する重要語の長時間相関をどの程度正確に表現可能であるかを調べた. このために,Hawkes過程の対数尤度関数を用いて,考えている文書中の取り上げている重要語に対してパラメータを最適化し,その最適化したパラメータを持つHawkes過程により語の出現を表す2値時系列データの生成をシミュレートさせ,その結果が文書中の実際の語の出現パターンにどの程度合致するか,その一致の程度を調べた.その結果,シミュレーション結果と実際の語の出現パターンは,6つの特徴量に対して強い正の相関を示し,これによってHawkes過程が文書中に出現する長時間相関を持つ重要語を生成する確率過程モデルとして使用可能であることが示された. これまでの一連の研究により,文書中の重要語の出現パターンを支配する確率過程が,単純なポアソン過程とは大きく異なった確率過程であることが示された.これらの語の自己相関関数は拡張指数型となり,またその待ち時間分布はフラクタル構造を有していることも分かった.さらに,この確率過程を記述する有力なモデルとしてHawkes過程が使用できることも明らかとなった,今後は,Hawkes過程と待ち時間分布の関係について,より詳細な研究の進展が望まれる.
|