2016 Fiscal Year Research-status Report
自己相関関数に基づく文書主題と文書構造を考慮した文書検索手法の開発
Project/Area Number |
16K00160
|
Research Institution | Showa University |
Principal Investigator |
小倉 浩 昭和大学, 教養部, 准教授 (40214100)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | 自己相関関数 / ポアソン点過程 / 確率過程 / 拡張指数型関数 / ベイズ情報基準量 |
Outline of Annual Research Achievements |
H28年度は,英語で記述された本12冊(学術的な書籍,哲学書および古典的な小説など)をテキストデータとして使用し,それぞれの本中に50回以上出現する頻出語に対して自己相関関数(autocorrelation function:ACF)を計算し,それぞれのACFの特徴を調べた.その結果,(a)頻出語のACFが複数の文にまたがる動的な相関を持つ語と,他の文との相関を全く持たないものの2つのグループに大別されること,(b)前者のACFを記述する経験的な関数として拡張指数型関数が適切である一方,後者のACFは単純なステップ ダウン関数で記述できること,(c)後者のACFは語の出現を規定する確率過程としてポアソン点過程を仮定することで導出可能であることなどが明らかとなった. さらに上記結果を踏まえて,文書中での頻出語の重要度を測る指標として,拡張指数型自己相関数によりACFをフィッティングした時のベイズ情報基準量(Bayesian information criterion:BIC)と,ポアソン点過程型関数によりACFをフィッティングした時のBICとの差ΔBICが使用可能であることを明らかにした.ΔBICは,問題とする語の出現を文書中で規定する確率過程が,時間的にオーバーラップしていないすべての時間領域と一切相関を持たないポアソン点過程からどれだけずれているかを測る指標であり,文書中で問題としている語の重要性を測る端的な指標として応用可能であると考えられる.ΔBIC以外に,ポアソン点過程からのずれを測る指標としてKleinburgのバースト検出アルゴリズムを援用し,そこから得られる語の重要性との一致を見たところ,両者は強い正の相関を示した.この結果からもΔBICの有用性が示された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要で述べた通り,ACFの計算方法の確立,ACFを記述するための経験的関数の確立,ベイズ情報基準量を用いた語の重要度を測る指標の確立など,研究開始当初想定していた課題のうち半分程度が,すでに原理的には解決された状況となっているため,研究の進捗状況としてはおおむね順調に進展していると評価できる.解決方法等が確立された上記各課題に対して,その精度を高めるという課題が残されているが,これに関しても原理的な困難はない.
|
Strategy for Future Research Activity |
今後の研究の方向性として,以下の2つの方向性を考えている.まず語の重要度を測る指標としてのΔBICの有効性を検証する.そのためには,学術的な比較的長い論文に対して,この指標を用いて検出されたキーワードと,論文著者が自ら選定した論文のキーワードとの一致の度合いを測ることが有効であると考えられる.ただし,論文キーワードは単一語だけがキーワードとなるわけではなく,専門的な意味を持つ複数の語の組み合わせもキーワードとなりうるため,これに対処するためのアルゴリズムの拡張が必要となる. 第2の方向性は,時間的に長い相関を持つ拡張指数型の自己相関関数を生成する確率過程について,その特徴を探ることである.そのためには,拡張指数型自己相関関数を生成する確率過程のモデルを確立する必要があるが,従来知られている確率過程モデルは文書生成過程には直接適用困難なものが多いため,何らかの工夫が必要となる.そこで,確率過程の詳細に立ち入る前に,単純な文書生成モデルを複数準備し,その生成過程をシミュレーションすることで疑似的な文書を生成し,疑似的文書中の語のACFを計算して実際の語のACFとの類似度を測るという方法が考えられる.ある程度実際の語のACFと類似のACFが得られれば,それを突破口として確率過程の考察を行うことが可能となるはずである.
|
Causes of Carryover |
2016年度に関しては,結果の質的な精度の検証および論文執筆に重点を置いたため,大規模データを用いて計算を実行する際に必要となるデータベース環境の構築は後回しとした.具体的には,文書データとして選択した12冊の英語書籍に関して自己相関関数の特徴的な振る舞いおよびΔBICによる重要語選択の精度をできるだけ丁寧に検証した.これらの検証結果に確信がない段階で大規模データによる計算を行っても,その計算結果が無駄になる可能性が大きかったからである. 2016年度に得られた結果は,2017年度のできるだけ早い時期にしかるべき学術論文雑誌に投稿予定である.この結果により提案しようとする方法論が確定した段階で大規模データのデータベース構築をするために必要なハードウェア環境を整えるべく,しかるべき大容量記憶装置を購入予定である.
|
Expenditure Plan for Carryover Budget |
上記のとおり,2017年度前半で提案しようとする自己相関関数による重要語の選出基準の有効性を確立し,その後速やかに2016年度に購入予定であった大容量外部記憶装置を含む大規模データ計算環境を整える予定である.
|
Research Products
(4 results)