2014 Fiscal Year Research-status Report
古典資料に対するテキストマイニングおよびその分析結果の可視化に関する研究
Project/Area Number |
26730169
|
Research Institution | Ritsumeikan University |
Principal Investigator |
木村 文則 立命館大学, 衣笠総合研究機構, 研究員 (70516690)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 重要語抽出 / テキストマイニング |
Outline of Annual Research Achievements |
本研究では,電子テキスト化された古典資料(『吾妻鑑』などの平安時代~鎌倉時代に書かれた史料)に対しテキストマイニングを行うことにより人物や地名などの情報の抽出を行い,それらの分析をし,その結果の可視化を行う. 平成26年度は,古典資料に対してテキストマイニングを行うために必要な古文の重要語抽出器の作成を行った.本手法ではサポートベクターマシンによる機械学習を用いている.今年度は,『東大寺要録』および『役者評判記』を対象として実験を行った.また,これらの資料に対しては人手により注釈が付与されており,この注釈を教師データとして学習を行うことにより,人名や地名,建物などの抽出を行った.その結果,一定の抽出精度が得られ,本手法の有用性が実証できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成26年度の目標は,電子テキスト化された古典資料から人物や地名などの情報を抽出することが目的であったが,その目的はある程度達成できた.これまでは人名の抽出が中心であったが,今年度では人名以外の抽出もある程度実現し,それを一層進めていく道筋がつけられたと考えている.特に,これまでは『吾妻鑑』などの平安時代~鎌倉時代に書かれた史料が主な対象であったが,それ以外の史料(『東大寺要録』および『役者評判記』)を対象に実験を行ったことにより,提案手法が特定の時代の史料に限定される手法ではなく,汎用性があることが実証できたのは成果であると考えている. ただし,もう一つの課題であった,研究代表者が以前に提案した単語分割手法の改善については十分な成果が得られなかったため,全体としては「おおむね順調に進展している」との評価になると考えている.
|
Strategy for Future Research Activity |
平成27年度は,提案した重要語抽出器の性能を向上したいと考えている.人名以外の地名や建物なども抽出できるようにはなったが,この抽出精度を向上したいと考えている.また,それ以外のさまざまな項目についても抽出できるように改善したいと考えている. さらに,上記で抽出した結果を用い,分析を行う手法について検討し,実現することを考えている.研究代表者は以前,人物関係を表すのに地名を媒介とする手法を提案したが,これを地名以外の項目にも拡張することなどにより,より深い分析を行うことのできる手法を実現することを検討している.
|
Causes of Carryover |
購入した実験用PCが,当初予定した金額より安く購入できたため.
|
Expenditure Plan for Carryover Budget |
実験データ等の保存のためのストレージの購入を行う.また,研究の進展により得られた成果の公表を行うため,国内・国際会議に参加する際の参加費,旅費に充てる予定である.
|