研究課題/領域番号 |
25580093
|
研究種目 |
挑戦的萌芽研究
|
研究機関 | 昭和大学 |
研究代表者 |
小倉 浩 昭和大学, 教養部, 准教授 (40214100)
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
キーワード | 自己相関関数 / 機能語 / 概念語 / ポアソン過程 / 非済次ポアソン過程 / Cox過程 / 拡張指数型関数 / 語のバースト性 |
研究概要 |
本研究は,文書中で使用される語の出現パターンを時間に依存する時系列データとしてとらえ,特に考えている語の出現パターンを特徴づける最も基本的な量としての自己相関関数の計算方法を確立することを目的としている. 平成25年度は基本的な文書セットとして異なる分野から英語で書かれたの3つの書籍を取り上げ,それらの書籍中で頻出する頻出語セットに含まれる各単語についての自己相関関数を計算し,その計算方法の妥当性を検討した.文書を動的な時系列データとしてとらえる際の時間単位を(一文)=(一時間単位)と考えることで,信号解析や物性物理学あるいは経済時系列データの解析で使用されている自己相関関数と類似の自己相関関数を計算可能であることが確認された. さらに,頻出語セットに含まれる各語の自己相関関数が,物性物理学の分野で自己相関関数の記述に多用される拡張指数型関数(stretched exponential function または Kohlausch-Williams-Watts function)と定数の重ね合わせで構成されるモデル式で精度よく記述可能であることが明らかとなった.また,モデル式における定数部分が支配的な自己相関関数は,「機能語」に対して多く観察されること,また拡張指数型関数部分が支配的な自己相関関数は,文書の主題に密接にかかわる「概念語」に対して多く観察されることが明らかとなった. 引き続いて,上記モデル式を理論的に説明するための確率過程モデルについて考察した.モデル式の定数部分は定常ポアソン過程により,また拡張指数型部分は非斉次ポアソン過程を拡張したCox過程によりもたらされる可能性が強く示唆された.またここで考えるCox過程により,語の特徴的な出現パターンであるバースト性が再現されることも確認された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成25年度における主要な目的である自己相関関数の計算方法の確立については,3つの書籍の頻出語セットに含まれる数百の語の自己相関関数の計算結果を通じて,完全に達成された.すなわち,得られた自己相関関数が他の時系列データを扱う諸分野の自己相関関数と類似の振る舞いを示すこと,また得られた自己相関関数が文書中での語の働きを反映した特徴を有することなどを合わせて,本研究で提案する自己相関関数の計算方法が十分な妥当性を有することが確認された. また,得られた自己相関関数を記述するためのモデル式の構築についても満足できる結果が得られた.すなわち,上記数百の頻出語セットに含まれるすべての語について,自己相関関数が定数部分+拡張指数型部分の重ね合わせで精度よく記述されることが確認された.なお,このモデル式を用いて実際の自己相関関数に対する非線形回帰を効率よく実施するためには,計算上複数の工夫が必要であるが,これらの計算上の工夫に関する実用的な知見も得ることができた.また,これらの工夫を盛り込んだ非線形回帰を実行するためのプログラムもおおむね完成している. 上記,非線形回帰に使用するモデル式は経験的に得られたものであるが,それを理論的に裏付けるために,このモデル式で表現される自己相関関数をもたらすような確率過程モデルについての検討に着手した.現段階では,モデル式における定数部分は最も基本的な計数過程であるポアソン過程により生成可能であること,またモデル式に含まれる拡張指数型関数の部分は非斉次ポアソン過程を拡張したCox過程で記述できる可能性が高いことが明らかとなっている.とくに,過去の確率変数の履歴を考慮した確率過程モデルとして,非斉次ポアソン過程におけるイベントの生成率が過去の確率変数実現値の畳み込み積分で定義されるCox過程に分類される確率過程モデルが有望である.
|
今後の研究の推進方策 |
頻出語セットに含まれるすべての語について得られた自己相関関数を精度よく記述可能なモデル式についての理論的な研究を進める.具体的には,確立されたモデル式である定数部分+拡張指数型関数で記述されるような自己相関関数をもたらす確率過程はどのようなものかを明確にしたい.ただし,これらの確率過程を演繹的・帰納的に導出することは困難である.そこで,モデル式で記述される自己相関関数を生成する可能性が最も高いと考えらえる,非済次ポアソン過程を拡張したCox過程の範疇で,語の文書中での過去の出現履歴に依存した確率過程を考え,この確率過程をシミュレーションにより生成して,そこから計算された自己相関関数と実際の語の自己相関関数とを比較,検討するという手法をとる.この検討により,とくに「概念語」の文書中での出現がどのような確率過程によってもたらされるのかを明らかにし,さらには「概念語」の文書中での動的出現パターンの不偏的な特徴について検討する.この検討により,過去の履歴の影響の割合に応じて,語の出現パターンにどのような違いが生じるのかを議論したい. また,本研究の妥当性を確立するために,より多くの文書セットについて語の自己相関関数の計算,得られた自己相関関数のモデル式による非線形回帰の実行,回帰の際に得られるフィッティングパラメータによる語の特徴をとらえた分類,さらに大規模なシミュレーションの実行による確率過程モデルの検証を行う.特に,非線形回帰により得られたパラメータを用いた語の分類により,語の文書中での働きと得られたフィッティングパラメータ値との関係を詳細に検討し,パラメータ値により語を分類する方法の確立を目指す.この方法が確立されれば,自己相関関数を計算することで文書内の語の使われ方についての重要な知見が得られる実用的な手段が提供できるはずである.
|
次年度の研究費の使用計画 |
当初は,平成25年度中にワークステーションを購入して,多くの文書セットについて得られた自己相関関数に対して,モデル式を用いた非線形回帰による解析を行う予定であった.しかし,モデル式による非線形回帰をすべての自己相関関数に行う前段階として,実用的な非線形回帰アルゴリズムを確立することが必須であることが明らかとなった.これは,実際に得られた自己相関関数を記述できるモデル式においてフィッティングパラメータの範囲に明確な制限があり,その制約を満たしながら非線形回帰を行うためには,計算上の工夫が必要であるためである.したがって,平成25年度はこのアルゴリズムの確立を集中的に行い,その検証が完了した時点で大規模な非線形回帰プログラムを実行させることとした.現段階でアルゴリズムの検証はほぼ完了し,平成26年度にはこれを十分な速度で実行可能なワークステーションを購入し,大規模計算を行う予定である. 当初の予定通り,大容量メモリーおよび高速CPUを搭載したワークステーションを購入し,頻出語セットに含まれる各語について得られた自己相関関数のモデル式による非線形回帰およびその自己相関関数を再現可能な確率過程モデルによるシミュレーションを実行し,その結果を検討する.現段階では,3つの書籍に関する検証が終了しているが,本研究の妥当性を高めるためには大量の文書セットに対して同様な計算を行う必要があるため,ワークステーションを有効活用して研究の進捗を図る.
|