2014 Fiscal Year Annual Research Report
自己相関関数を用いた言語統計的手法の確立に関する研究
Project/Area Number |
25580093
|
Research Institution | Showa University |
Principal Investigator |
小倉 浩 昭和大学, 教養部, 准教授 (40214100)
|
Project Period (FY) |
2013-04-01 – 2015-03-31
|
Keywords | 自己相関関数 / 拡張指数型関数 / 確率過程 / ポアソン過程 / 非定常ポアソン過程 / Cox過程 / 言語統計 / テキストマイニング |
Outline of Annual Research Achievements |
本研究の主たるテーマは,さまざまな語の文書中での働きおよび重要度を調べる目的で行う語の自己相関関数の計算について,その計算手法を提案・確立することである.本研究においては,テキストデータを動的な時系列データととらえ,考えている語の文書中での出現状況の相関を表す自己相関関数を計算する方法を提案した.その際,一文を一時間単位に設定することで,文書中の語の出現に関しても,物理学や工学系信号処理分野,経済時系列データの解析等で使用される,徐々に相関が減衰する単調減少関数としての特徴を持つ自己相関関数が計算可能であることを示した.提案手法を用いて,複数の学術的な書籍について文書中に頻出する語の自己相関関数の計算を行い,以下の結果を得た. ・文書全体の主題と密接に関連した「概念語」と,文を構成する要素として欠かせない「機能語」とで,それぞれの自己相関関数の計算結果が全く異なる特徴的な振る舞いをすることが明らかとなった.特に「概念語」の自己相関関数は,相互作用のある物理系における緩和過程において頻出する拡張指数型自己相関関数で精度よく記述可能であることが明らかとなった. ・「概念語」および「機能語」それぞれの特徴的な振る舞いを説明するための確率過程モデルを提案した.「機能語」の出現をモデル化した確率過程モデルとして,文書開始から現在時刻までの対象となる語を含む文の合計数が,典型的な計数過程であるPoisson分布にしたがっていると仮定すると,観測される自己相関関数を再現可能であることを明らかにした.また,「概念語」の自己相関関数の特徴である拡張指数型自己相関関数は,非定常ポアソン過程における強度関数に確率過程を仮定するCox過程を用いたモデル化により再現可能であることが明らかとなった. ・上記結果は,医療分野学生が提出するポートフォリオ等の文書分析にも有効であることが示された.
|
Research Products
(8 results)