2018 Fiscal Year Research-status Report
自己相関関数に基づく文書主題と文書構造を考慮した文書検索手法の開発
Project/Area Number |
16K00160
|
Research Institution | Showa University |
Principal Investigator |
小倉 浩 昭和大学, 教養部, 准教授 (40214100)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | 自己相関関数 / 確率過程 / 拡張指数型関数 / 統計的フラクタル / フラクタル時系列 / ポアソン過程 |
Outline of Annual Research Achievements |
2018年度は,従来からの研究成果を学術論文にまとめるとともに,あらたな研究の方向を定めることができた.まず,研究成果については,語の自己相関関数を計算することにより,英文テキスト中の語が動的相関を持つ語と動的相関を持たない語の2種類に大きく分類することが可能であること,およびテキスト中でより重要な役割を果たす動的相関を持つ語の重要度を測る指標を自己相関関数の計算結果から求めることができることの2点についてまとめて専門学術雑誌に投稿した. また,今後の研究の方向性としては,動的相関を持つ語の自己相関関数が,文の長さで測った場合に100文程度の長期記憶を持つ点について,文中における語の出現を支配する確率過程モデルを用いて考察を行った.その際に,Addtive Binary Markov Chainの方法論を援用し,語の出現確率の時系列(テキストに沿った各文においてその語が使用される確率値)を求めた結果,確率時系列はいくつかの有限個の値をとるように疑似的に離散化されていること,および同じ確率値は近接した文に出現しやすい傾向を示すことを明らかにした.さらに,このような確率時系列が出現する理由として,テキストの階層構造(章,節,副節,段落,文のような内部構造)を考慮すると,確率時系列データの上述の特徴を的確に再現できる確率過程モデルが構築できることが示された.今後は,こうした確率過程モデルが,語の出現確率の再帰的な再分配により構成されるフラクタル構造と密接な関連を持つ点を軸に,確率時系列データのフラクタル次元と文中における語の働きとの関係を明らかにしていきたいと考える.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の予定では,語の重要度を測る指標(動的相関が全くないポアソン過程を仮定した場合の自己相関関数と動的相関を正確に記述できる拡張指数型関数により自己相関関数を記述した場合のそれぞれについてのベイズ情報基準量の差)を応用して,各種の英文テキストにおける語の重要度を測る指標の妥当性を検討する予定であった.また,提案した指標の有効性については,KleinbergのBrust Detectionアルゴリズムによる結果との比較により,ある程度実証されている.しかし,その指標を的確に応用するためには,より原理的になぜ提案指標が語の重要度を正確に記述可能なのかについての理解が不可欠であると考え,直接的な応用事例を提示する前に,原理的,理論的な側面をより精密化することを優先することとした. そのため,動的相関を示す語について,その語の出現を支配する確率過程の特徴を調べ,その特徴を正確に再現可能な確率過程モデルの構築に力を注いだ.動的相関を示す語の出現確率時系列データの特徴として,近似的に離散的な数個の確率値のみをとること,および確率値がほぼ同じ値の文が考える文書中で集中して出現することが判明した.現在こうした特徴を有する確率過程モデルを考案中であるが,こうした特徴を的確に再現可能なモデルを考案することで,語の重要度指標の妥当性がより明確に示されることになるはずである.
|
Strategy for Future Research Activity |
前述の通り,語の重要度を表す指標の妥当性を検証するため,動的相関を示す語についてその語の出現を支配する確率過程モデルをまず構築する.現在までにある程度明らかになった結果として,語の出現確率時系列データの特徴を正確に再現するには,文書の階層構造を考慮した語の出現確率の再分配にもとづき,確率分布関数を確率時系列データに変換したものが有効であることが明らかとなった.この確率分布関数の構築方法は,統計的フラクタルの構成方法と同一であると解釈できるため,得られた語の出現確率を表す確率時系列データはフラクタル時系列であると考えることができる.現在,フラクタル時系列については,実際の株式市場時系列データ等を用いて盛んに研究が行われているが,動的相関を持つ語の出現確率時系列データがフラクタル時系列とみなせることは大変興味深い.今後は,最終的な目標である語の重要度を測る指標の確立とともに,全く新しい研究テーマである語の動的相関とフラクタル次元との関係を定量的に明らかにすることを新たな目標として加え,これまでに得られた知見を基にして効率的に研究を進めていく.
|
Causes of Carryover |
2018年度の研究においては,大規模文書データベースを用いた語の重要度の指標の有効性の検証に先立つ,語の重要度の指標の理論的妥当性の確立に重点をおいて研究を行った.このため,大規模文書データベースを使用する計算はまだ試験段階での実行にとどまっている.大規模文書データベースを用いた計算に着手する際に,並列計算時の計算速度が十分に速く,かつ大容量メモリを実装したPCが必要となる.また,このPCシステムにより動的相関を持つ語の文書中での生起時系列をシミュレートする確率過程モデルの構築を行うことも可能となる.2019年度は,こうした用途に供するためのPCシステムの購入を行う予定である.
|
Research Products
(7 results)