テキストデータを動的な時系列データととらえる方向性での研究は少なく,従ってテキストデータの時間的な相関を問題とした研究もほとんど行われていない.本研究では,テキストデータを動的な時系列データととらえ,考えている語の文書中での出現状況の相関を表す自己相関関数を計算する方法を提案する.提案手法では,適切な自己相関関数を定義するために,語の出現過程を記述するための基本時間単位を,文書中の個々の文に設定する.文書全体の主題と密接に関連した「概念語」と,文書全体の主題と密接な関連を持たない「非概念語」に対して,それらの自己相関関数が全く異なる特徴的な振る舞いをすることを示す.
|