2022 Fiscal Year Final Research Report
Development of document retrieval method considering document subject and document structure based on autocorrelation function
Project/Area Number |
16K00160
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Research Field |
Multimedia database
|
Research Institution | Showa University |
Principal Investigator |
|
Project Period (FY) |
2016-04-01 – 2023-03-31
|
Keywords | 自己相関関数 / 待ち時間分布関数 / 拡張指数型関数 / ポアソン分布 / Hawkes過程 / 自己相似構造 / 長時間相関 / 時系列解析 |
Outline of Final Research Achievements |
The patterns of occurrence of key words related to the main theme of documents were analyzed as binary time series data using the method of time series analysis. The study has shown that the stochastic processes governing the patterns of occurrence of important words in documents were stochastic processes which are very different from a simple Poisson process. The autocorrelation functions of these words were found to be of extended exponential type, and their waiting time distributions have fractal structures. Furthermore, it was found that the Hawkes process can be used as a promising model to describe these stochastic processes.
|
Free Research Field |
言語統計学,時系列解析
|
Academic Significance and Societal Importance of the Research Achievements |
本研究により,文書の主要テーマに深く関連した重要語の識別を精度よく行うことが可能となった.このための最も大切な指標は,対象となる語を生成する確率過程がPoisson過程からどの程度ずれているかを表す指標である.この成果は,文書検索の精度向上に対する重要な貢献となり得るものである.また,(a)本研究で提案された2次元DAG構造を一次元の擬似的な文書構造に変換する手法は文書生成時の人間の思考をシミュレートするものであること,(b)語生成を支配する確率過程のモデルとして提案したHawkes過程を多次元化することで文書生成確率過程を精密化できること,などから認知心理学分野への将来の寄与も期待される.
|