研究課題/領域番号 |
23700302
|
研究機関 | 立命館大学 |
研究代表者 |
木村 文則 立命館大学, 情報理工学部, 助手 (70516690)
|
キーワード | 古典史料 / 情報抽出 |
研究概要 |
本研究では,電子テキスト化された古典史料(『吾妻鏡』などの平安時代~鎌倉時代に書かれた史料)に対しテキストマイニングを行うことにより人物や地名などの情報の抽出を行い,それらの分析をし,その結果の可視化を行う.平成24年度は,古典史料に対してテ キストマイニングを行うために必要な古文の単語分割器の精度改善および,電子化された古典史料からの人物抽出を行った. 日本語は英語などのように単語の境界が明示されていないため,文を単語に分割することが必要となる.本研究では,古文の文章中において使用される文字の出現頻度から推定される文字nグラムの出現頻度(理論値)と実際の文字nグラムの出現頻度の比率から,その 文字nグラムの単語らしさを計測し,適切な単語の境界を決定する.理論値は,使用される文字の出現頻度を基にn文字をランダムに抽出して得られる確率である.それに対し,単語を構成している文字nグラム(適切な単語の境界が得られている文字nグラム)は,特定の文字列を意図的に使用していることから,理論値よりも明らかに高い出現頻度が得られることになる.それゆえ,本手法では実際の出現頻度を理論値で割った値が高いほど,適切に単語の分割を行えていると仮定し,単語の分割を行う. 電子化された古典史料からの人物抽出を,機械学習により行う.本研究において対象としている『兵範記』『吾妻鏡』『玉葉』には,史料のどこで出現しているかをデータベース化した「人物索引」があり,これを学習データとして用いる.機械学習により,人物であるかどうかのラベル付けを行い,人物の抽出を行う.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度提案した古文の単語分割手法を改良し,実際に単語分割を行った.その結果,約50%の単語抽出精度が得られた.単語境界の検出精度は約80%の単語抽出精度が得られたこれらの成果を,国際学会1件において発表した. また,電子化された古典史料からの人物抽出手法を提案し,実装を行った.『兵範記』『吾妻鏡』『玉葉』を対象に実験を行い,一定の成果が得られた. 本年度は,電子化された古典史料からの人物抽出はまだ実用段階には至っていないが,ある程度の見通しを立てることができ,本年度の進行状況はおおむね予定通り進めることができた.
|
今後の研究の推進方策 |
平成25年度は引き続き古文の単語分割器の精度の改善および,電子化された古典史料からの人物抽出の精度の改善を行う.こうして実装された古文単語の分割器および人物抽出器を用いて,古典史料からの知識抽出を行う.古典史料に対しテキストマイニングを行い,知識の獲得を行う.本手法では,1. 古典史料から単語,人物を抽出,2. 人物の特徴を生成,3. 人物の関連などの知識を獲得,という手順で行う. まず,古典史料に記述されている文章を,前年度作成した古文単語の分割器により単語に分割する.次に,構築した現代語古語対訳辞書を用いて,抽出した単語に対してラベル付けを行う.各単語に対して「人名」,「地名」,「事柄」などのラベルを付与することにより,単語の種別が判定できるようにする.このラベルは,次の人物の特徴生成において用いる単語の種類を選択する際に利用する.次に,古典史料から抽出される人物にがどのような傾向があるかについての特徴を,関連する「地名」や「事柄」などを用いて表現する.1. において抽出された単語のうち,「人名」を取り出す.次に,その人名と共起する地名や事柄を抽出する.抽出された共起頻度を用いて,その人物の特徴ベクトルを生成する.最後に,2. で作成した人物の特徴ベクトルを用いて,人物間の特徴の類似度を求めることにより,人物間の関連や,行動の傾向の分析などを行う. 上記により得られた成果をまとめ,国内学会,国際会議などにおいて成果発表を行う.
|
次年度の研究費の使用計画 |
提案手法の評価実験を行うため,実験結果に対して日本史の専門家に評価を依頼することを予定している.そのための人件費を計上している.また,研究成果を国内・国際学会において随時発表するための旅費を計上している. なお,手法の提案・実験を進めることを優先したため,平成24年度に予定していた研究発表を平成25年度に行うように計画を変更した。そのため、平成24年度に使用する予定であった研究費の一部を次年度(平成25年度)に使用したい.
|