研究課題/領域番号 |
23700302
|
研究機関 | 立命館大学 |
研究代表者 |
木村 文則 立命館大学, 情報理工学部, 助手 (70516690)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | 古典資料 / 情報抽出 |
研究概要 |
本研究では,電子テキスト化された古典史料(『吾妻鏡』などの平安時代~鎌倉時代に書かれた史料)に対しテキストマイニングを行うことにより人物や地名などの情報の抽出を行い,それらの分析をし,その結果の可視化を行う.平成23年度は,古典史料に対してテキストマイニングを行うために必要な古文の単語分割器の作成および,古典史料からの人物間の関係の抽出を行った.日本語は英語などのように単語の境界が明示されていないため,文を単語に分割することが必要となる.本研究では,古文の文章中において使用される文字の出現頻度から推定される文字nグラムの出現頻度(理論値)と実際の文字nグラムの出現頻度の比率から,その文字nグラムの単語らしさを計測し,適切な単語の境界を決定する.理論値は,使用される文字の出現頻度を基にn文字をランダムに抽出して得られる確率である.それに対し,単語を構成している文字nグラム(適切な単語の境界が得られている文字nグラム)は,特定の文字列を意図的に使用していることから,理論値よりも明らかに高い出現頻度が得られることになる.それゆえ,本手法では実際の出現頻度を理論値で割った値が高いほど,適切に単語の分割を行えていると仮定し,単語の分割を行う.人物間の関係の抽出を行うためには,古典史料から抽出される人物にがどのような傾向があるかについての特徴を,関連する「地名」や「事柄」などを用いて表現する.まず, 人手により作成された「人名索引」を利用して「人名」を取り出す.次に,その人名と共起する地名を抽出する.抽出された共起頻度を用いて,その人物の特徴ベクトルを生成する.こうして得られた特徴ベクトルを用いて,人物間の関係の抽出を行う.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画で提案した古文の単語分割手法を実装し,実際に単語分割を行った.その結果,約50%の単語抽出精度が得られた.名詞に限定すれば約60%の単語抽出精度が得られた.テキストマイニングにおいては名詞が重要であり,その抽出においては一定の精度が得られた.これらの成果を,国際学会1件,国内会議1件において発表した.また,古典史料からの人物関係の抽出を,行い,可視化システムの実装を行った.本年度は,2とおりの人物関係の抽出手法を提案した.一つは,人物同士の人名の共起から抽出し,その関係性の時系列変化の可視化を行った.もう一つは,ある人物の特徴を地名との共起から表現し,こうして得られた特徴を比較することで,人物関係の抽出を行った.研究計画で提案した手法によりこれらの成果を,国際学会1件,国内会議1件において発表した.本年度は,古文の単語分割手法の実装においては実用のレベルに少し及ばない結果となった.しかし,次年度に行う予定であった人物関係の抽出およびその可視化について,前倒しである程度実現できたため,本年度の進行状況はおおむね予定通り進めることができた.
|
今後の研究の推進方策 |
平成24年度は引き続き古文の単語分割器の精度の改善を行う.また,テキストマイニングに重要である名詞に特化して抽出を行う手法についても提案し,実装を行う.さらに,こうして実装された古文単語の分割器を用いて,古典史料からの知識抽出を行う.古典史料に対しテキストマイニングを行い,知識の獲得を行う.本手法では,1. 古典史料から単語を抽出,2. 人物の特徴を生成,3. 人物の関連などの知識を獲得,という手順で行う.まず,古典史料に記述されている文章を,前年度作成した古文単語の分割器により単語に分割する.次に,構築した現代語古語対訳辞書を用いて,抽出した単語に対してラベル付けを行う.各単語に対して「人名」,「地名」,「事柄」などのラベルを付与することにより,単語の種別が判定できるようにする.このラベルは,次の人物の特徴生成において用いる単語の種類を選択する際に利用する.次に,古典史料から抽出される人物にがどのような傾向があるかについての特徴を,関連する「地名」や「事柄」などを用いて表現する.1. において抽出された単語のうち,「人名」を取り出す.次に,その人名と共起する地名や事柄を抽出する.抽出された共起頻度を用いて,その人物の特徴ベクトルを生成する.最後に,2. で作成した人物の特徴ベクトルを用いて,人物間の特徴の類似度を求めることにより,人物間の関連や,行動の傾向の分析などを行う.
|
次年度の研究費の使用計画 |
本研究では,主に大規模なコーパス中から単語の獲得を行ったり,単語間の共起情報を基に人物の特徴を求めることなどを行い,そこから人物間の関連性を求める.このために,高性能なワークステーションが必要であるため,実験用ワークステーション一式を計上している.また,古典史料からの知識獲得においては,古典史料に対しテキストマイニングを行うことにより,大量のデータが蓄積されることが予想される.このために,データ保存用ネットワークハードディスクを計上している.さらに,テキストマイニングを行う上で必要となるソフトウェアの購入費用を消耗品費に計上している.また,調査・研究のための旅費および,研究成果を国内・国際学会において随時発表するための旅費を計上している.
|