2017 Fiscal Year Research-status Report
自己相関関数に基づく文書主題と文書構造を考慮した文書検索手法の開発
Project/Area Number |
16K00160
|
Research Institution | Showa University |
Principal Investigator |
小倉 浩 昭和大学, 教養部, 准教授 (40214100)
|
Project Period (FY) |
2016-04-01 – 2021-03-31
|
Keywords | 自己相関関数 / 確率過程 / ポアソン点過程 / 混合ベルヌイ分布 / WAIC |
Outline of Annual Research Achievements |
文書中に頻出する語の自己相関関数(ACF)に関して,長い文書範囲に渡って相関を示す語についての研究を進めた.長い文書範囲に渡って相関を示す語は,その文書にとって重要な概念を表現するために必要不可欠な語であり,その文書を特徴づける語として例えば文書検索において大切な役割を果たすことが予想される語である. H28年度までの研究で,頻出語には長い文書範囲に渡って相関を示す語と,語が出現した文の直後の文とさえ相関を示さない語の2つのグループに分けられることをすでに示した.また,相関を示さない語グループについては,その語の出現を規定する確率過程としてポアソン点過程を仮定すると,このグループに特徴的な自己相関関数の関数形が再現可能であることを明らかにした.こうした経緯を踏まえて,H29年度は長い文書範囲に渡って相関を示す語グループについて,その出現を規定する確率過程の性質を調べた. その結果,長い文書範囲に渡って相関を示す語グループについて,文中で考えている語が出現するか否かを記述する確率過程は,2つのベルヌイ分布の混合分布で記述できる可能性があることが明らかとなった.ここで考慮する2つのベルヌイ分布のうちの一つについては,その成功確率が考えている語の過去の文中での出現履歴を考慮したもので与えられる.どの程度の過去までさかのぼって履歴を考慮するかについては,WAIC(Widely Applicable Information Criterion)を用いて判断する手法が有効であることも明らかとなった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
H29年度までの研究成果により,ACFの計算方法の確立,ACFを記述するための経験的関数の確立,ベイズ情報基準量を用いた語の重要度を測る指標の確立など,研究開始当初想定していた課題のうち半分程度が達成された.さらに,H28年度の研究過程で明らかとなった,文書中の頻出語の2つのグループのうち,他の文と相関を示さない語グループについては,その出現過程の確率過程モデルも明らかにした.加えて,長い文書範囲に渡って相関を示す語グループについても,その特徴的な文書中での出現パターンを再現可能な確率過程モデルが発見できた.現在の課題は,長い文書範囲に渡って相関を示す語について,本研究が提案する確率過程モデルがどの程度の適用範囲を持つのか(文書の種類,ジャンルなどを問わず適用できるか,現在のモデルを拡張したより一般的な状態空間モデルが必要となるかなど)を調べることである.この課題については,想定する確率過程モデルが含むパラメータ値を,実際の語出現パターンに適合するように推定するマルコフ連鎖モンテカルロ法の適用方法がH28年度中に確立できたため,原理的な困難はない.研究成果を論文化する作業が若干遅れているが,研究成果は着実に蓄積されている.これらのことより,研究進捗状況としてはおおむね順調に進展していると評価できる.
|
Strategy for Future Research Activity |
混合ベルヌイ過程を前提とすれば,長い文書範囲に渡って相関を持つ語に特徴的な文書中での語の出現パターンが再現可能であるとの結果(研究実績の概要で述べた結果)は,まだ十分に検証されたものであるとは言えない.なぜなら,考えている確率過程モデルのパラメータ推定をマルコフ連鎖モンテカルロ法により行っているため,パラメータ推定に必要な計算量が大きいからである.このため,H29年度中は,自己相関関数を計算済みの12個の文書のうちの一つの文書についてのみ頻出語のパラメータ推定を行った.提案モデルの妥当性を議論するためには,全文書を用いて検証を行う必要がある.パラメータ推定の効率を向上させるため,計算速度がある程度確保できる,並列計算可能な計算機を導入することによってこの問題に対処する予定である. 上記結果が検証されれば,長い文書範囲に渡って相関を持つ語についての特徴が明らかとなるため,その結果を踏まえて文書検索に語の自己相関関数を応用する手法の確立に取り組む予定である.具体的には,比較的長い学術論文の特徴語の検出を自己相関関数およびその拡張指数型関数によるフィッティング結果から得られるベイズ情報基準量を用いて行い,その結果をもともとの論文キーワードと比較することで,自己相関関数を用いた重要語の抽出手法の確立を目指す.
|
Causes of Carryover |
計算効率向上のためにある程度の計算速度を確保できる計算機を購入する予定であったが,購入する計算機の要件定義を明確化するために,ある程度の経験が必要であった.具体的には,メモリ容量を重視するのか,あるいはGPUによる並列計算の効率化が必要なのか,あるいはマルチコアCPUによって計算効率を確保するのかという問題である. H29年度の研究により,RStanを使用したマルコフ連鎖モンテカルロ法により,時系列データに対して確率過程モデルのパラメータ推定が可能であることが明らかになったため,購入する計算機の要件としてマルチコアCPUによる計算速度の確保が最も重要な要件であることが判明した.H30年度において,この要件を満たす計算機を購入する予定である.
|
Research Products
(7 results)