2021 Fiscal Year Research-status Report
自己相関関数に基づく文書主題と文書構造を考慮した文書検索手法の開発
Project/Area Number |
16K00160
|
Research Institution | Showa University |
Principal Investigator |
小倉 浩 昭和大学, 教養部, 教授 (40214100)
|
Project Period (FY) |
2016-04-01 – 2023-03-31
|
Keywords | 自己相関関数 / 待ち時間分布関数 / フラクタル構造 / ワイエストラスランダムウォーク / 語の出現パターン / 語の長時間相関 |
Outline of Annual Research Achievements |
前年度に引き続き、文書中の語の出現を2値時系列データであると考えて文書中の語の動的相関に関する研究を行った。2021年度は、特にこれまでに主に使用してきた自己相関関数以外に、語の出現の待ち時間分布を用いて、それぞれの語の出現を支配する確率過程の性質を調べた。 文書中の語の出現パターンが強い動的相関を持つType-I wordの場合は、語の出現に関する待ち時間twとその実現確率P(tw)の間には、両者を両対数グラフで表示した場合に線形関係が成立していることを確認した。これは、待ち時間分布の中にフラクタル構造が存在していることを示唆し、実際に1次元ラクタル構造をもたらすようなWeiestrass random walkにより待ち時間分布をシミュレートし、その結果から語の出現信号を生成した結果は現実の文書中のType-I wordの出現パターンとほぼ同じ特徴が再現されることを確認した。また、こうした待ち時間のフラクタル構造は、文書が持つ特有の階層構造(冊、章、節、副節、段落、文)により自然に生成される可能性を示唆した。 文書中の語の出現パターンに動的相関が一切存在しないType-II wordの場合は、その待ち時間分布がq-exponential分布で良く近似されることを明らかにした。q-exponential分布は、異なる生起強度を持つPoisson過程に対して、生起強度の分布関数としてカイ2乗分乗を用いて重ね合わせた結果として得られる確率分布であり、Poisson過程が動的相関を持たない確率過程であること、およびType-II wordが動的相関を持たないことを考慮すれば、この結果は納得のいく結果であると言える。 上記結果は学術論文として投稿し、2021年度内に投稿は受理された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
語の文書中での出現パターンの動的特徴を記述し解析する道具として、自己相関関数以外に待ち時間分布を応用する手法を確立できたことは大きな進展であるといえる。 動的相関を持たないType-II wordについては、その待ち時間分布を指数分布、q-exponential分布およびWeibull分布の3つのモデル関数を用いて曲線あてはめを行った結果、q-exponential分布が実際のType-II wordの待ち時間分布の記述に最も適合するという結果を得た。このような待ち時間分布の利用例はこれまでにないものである。 また、動的相関を持つType-I wordについては、その待ち時間分布がフラクタル構造を持つことを明らかにした。さらに、文書の持つ階層構造を考慮して文中の語の出現に関する強度関数を再帰的に構築すれば、この結果は極めて自然であることを示した。Type-I wordの自己相関関数は拡張指数型であり、拡張指数型自己相関関数を持つ確率過程の例は様々な分野で広範に存在するため、これらのさまざまな事例においても待ち時間分布のフラクタル構造というモデルが有効であるか否かを検証する価値は十分にあると考える。すなわち、2021年度の研究により、待ち時間分布にフラクタル構造を持つ確率過程という重要な研究テーマが新たに見出されたことになる。
|
Strategy for Future Research Activity |
考えられる研究の方向性は2つである。一つは、待ち時間分布にフラクタル構造を持つ確率過程についてその性質を丁寧に調べ、文書中の語の出現パターンとの整合性を検証することである。特にWeiestrass random walkにおいて設定するパラメータ値と語の待ち時間分布を特徴づける各量との関連を明らかにすることで、語の待ち時間分布中に存在するフラクタル構造の性質が、語の動的相関にどのような影響を及ぼすのかを調べることができる。 もう一つの方向性は、語の出現を記述する確率過程モデルとして自己励起型点過程であるHawkes過程を取り上げ、Hawkes過程によって動的相関を持つType-I wordの出現パターンがどの程度精度よく記述されるのかを調べることである。Hawkes過程は、例えば待ち時間分布におけるフラクタル性や、再帰的な文書構造を考慮した強度関数の構築などとは全く無関係に、すべての過去のイベントの発生が現在に影響を与えるという比較的単純なモデルである。しかし、Hawkes過程により生成されるイベントの派生パターンは、動的相関を持つType-I wordの発生パターンとよく類似しており、Type-I wordの生成パターンがHawkes過程で記述可能である事が期待される。この記述が成功すれば、Hawkes過程の適用事例として重要であるだけではなく、Hawkes過程で記述される確率過程と待ち時間分布にフラクタル性を持つ確率分布との関係の解明という新たな研究の端緒となる可能性がある。
|
Causes of Carryover |
新型コロナウィルス感染症の影響により、研究会への参加や研究内容の発表等が当初の計画通りに進捗しなかったために発生した。2022年度において学会発表等を行う予定である。
|
Research Products
(4 results)