本研究では,電子テキスト化された古典史料(『吾妻鏡』などの平安時代~鎌倉時代に書かれた史料)に対しテキストマイニングを行うことにより人物や地名などの情報の抽出を行い,それらの分析をし,その結果の可視化を行う.平成23年度は,古典史料に対してテ キストマイニングを行うために必要な古文の単語分割器の作成および,古典史料からの人物間の関係の抽出を行った. 日本語は英語などのように単語の境界が明示されていないため,文を単語に分割することが必要となる.本研究では,古文の文章中において使用される文字の出現頻度から推定される文字nグラムの出現頻度(理論値)と実際の文字nグラムの出現頻度の比率から,その 文字nグラムの単語らしさを計測し,適切な単語の境界を決定する.理論値は,使用される文字の出現頻度を基にn文字をランダムに抽出して得られる確率である.それに対し,単語を構成している文字nグラム(適切な単語の境界が得られている文字nグラム)は,特定の文字列を意図的に使用していることから,理論値よりも明らかに高い出現頻度が得られることになる.それゆえ,本手法では実際の出現頻度を理論値で割った値が高いほど,適切に単語の分割を行えていると仮定し,単語の分割を行う. 人物間の関係の抽出を行うためには,古典史料から抽出される人物にがどのような傾向があるかについての特徴を,関連する「地名」や「事柄」などを用いて表現する.まず, 人手により作成された「人名索引」を利用して「人名」を取り出す.次に,その人名と共起する地名を抽出する.抽出された共起頻度を用いて,その人物の特徴ベクトルを生成する.こうして得られた特徴ベクトルを用いて,人物間の関係の抽出を行う. 得られた成果を論文誌や学会において発表を行った.
|