2019 Fiscal Year Research-status Report
自己相関関数に基づく文書主題と文書構造を考慮した文書検索手法の開発
Project/Area Number |
16K00160
|
Research Institution | Showa University |
Principal Investigator |
小倉 浩 昭和大学, 教養部, 教授 (40214100)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | 自己相関関数 / 確率過程 / 拡張指数型関数 / ポアソン過程 / Levy過程 / Weierstrass random walk |
Outline of Annual Research Achievements |
2019年度は,これまでの研究の成果を学術論文にまとめるとともに,さらにその結果を発展させる契機を得ることができた.これまでに,文書中の語の動的相関を定量的に測定し,その結果をもとに文書中の語の重要度を測定する手法を提案してきた.2019年度においては文書中で強い動的相関を示す語,すなわちその文書にとって重要な役割を果たす語について,その確率過程モデルを提案して論文にまとめた.確率過程モデルの1つの柱はAdditive Binary Markov Chainの援用である.考えている語の文中での出現,非出現情報を2値時系列データであると捉え,その生成機構として上記Markov Chainを想定すると,強い動的相関を示す語の自己相関関数が矛盾なく再現されることが明らかとなった.さらに,文,段落,節,章などの文書の階層構造を考慮して,語の出現確率を階層的に分布させる語の出現確率分布モデルを考え,その確率分布により語の出現が制御されていると考えると,実際の文書中に出現する動的相関の強い語の自己相関関数が再現されることも示された.同様の考え方をさらに発展させ,階層的な確率分布の考えをさらに発展させると,Weierstrass Random Walkにより語出現の待ち時間を記述することが適切であるとの結論に至った.現在Weierstrass Random Walkにより語出現の待ち時間が記述されるモデルについて,その妥当性を検証中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
語の重要性を測る指標を提案するという研究開始時の目的に照らして考えると,直接的な解答として,語の生成過程がポアソン過程であることを前提とした場合の語出現に関する自己相関関数と,問題にしている語の実際の自己相関関数とのずれを,ベイズ情報基準量をもとに計測したものが最も実用的であるという結論が,本研究ですでに経験的に得られている.現在は,より検討の段階を深化させ,上記指標に影響を与える因子について考察を行いつつ,上記指標を裏付ける理論的な枠組みを構築している段階である.この検討も,Additive Binary Markov Chainモデル,階層的な確率分布モデル,階層的な待ち時間分布モデル(Weiestrass walkモデル)のように,提案モデルがより妥当なものに改良されていることから,研究はおおむね順調に進展していると判断される.
|
Strategy for Future Research Activity |
現在構築中のWeiestrass random walkモデルについて,その枠組みの検討はすでに終了し,現在は提案モデルに基づいてシミュレーションを行っている段階である.すなわち,提案モデルにより設定されるイベント(語の文中での出現に対応)の待ち時間分布が階層的に分布していることを前提として,その記述パラメータを変化させながら実際の動的相関が強い語の自己相関関数を最もよく再現できるよう最適化を図る.さらに,このようにして決定された最適化済みパラメータ値から予測される待ち時間分布の特徴が,文書構造と照らし合わせて妥当であるかどうかを議論する.こうした検証を通じて,提案モデルが重要語の出現をコントロールしている確率過程の記述に適していることを明らかにする.
|
Causes of Carryover |
2019年度の研究においては,提案する語の重要度の指標の実用的な評価ではなく,その裏付けとなる理論的な理解を深めることおよび汎用性を探ることに重点をおいた.そのため提案モデルを使用したシミュレーションに関しても,条件を詳細に変化させるといった設定や,実在の語の動的相関を多数の語について再現するという目的ではなく,むしろ今後の研究の方向性を定めるためのシミュレーションが主となった.このため,計算速度や使用記憶容量についてはの条件は厳しいものでなかったため,高速大容量の計算機環境は不要であった.2020年度は実用的な検証を含めて研究を進めるため,こうした用途に適したPCシステムの購入を行う予定である.
|
Research Products
(5 results)