2017 Fiscal Year Research-status Report
テキストマイニングの手法を用いた説話集の性質分析と分類
Project/Area Number |
17K18499
|
Research Institution | Ibaraki National College of Technology |
Principal Investigator |
平本 留理 茨城工業高等専門学校, 国際創造工学科, 准教授 (20342462)
|
Co-Investigator(Kenkyū-buntansha) |
蓬莱 尚幸 茨城工業高等専門学校, 国際創造工学科, 教授 (80633346)
|
Project Period (FY) |
2017-06-30 – 2020-03-31
|
Keywords | 国文学 / 説話文学 / 本文データベース / 形態素解析 / テキストマイニング |
Outline of Annual Research Achievements |
本研究の目的は、「説話集の性質分析」という文学研究に自然言語処理分野の手法である「形態素解析」と「テキストマイニング」を持ち込み、その有意性を明らかにしようというものである。 平成29年度は、テキストマイニングを行うための基礎データとして、『古今著聞集』『十訓抄』の形態素解析用本文データベースを完成させた。『古今著聞集』に関しては、岩波旧大系本をもとにして作成された本文データが国文学研究資料館のホームページに掲載されているが、漢文については白文のままで記されているなど、そのまま形態素解析のできる形にはなっていない。解析のしやすい本文データベースを作成するために、説話集13作品の本文の一部を用いて形態素解析を試行するためのサンプル文を用意し、実際に解析を行った。これにより、解析上の問題点を抽出でき、どの程度本文に手を加えれば問題なく解析が行えるのかがおおよそ明らかになった。 さらに、この2作品と、先に試行のため作成していた『古今和歌集』、『新古今和歌集』の真名序・仮名序の本文データベースを利用し、漢文を書き下し文に改めた際、漢文調の特徴がテキストマイニングに反映されなくなる恐れがないかどうかの検証を行った。結果として、漢語等から和文調か漢文調かの文体の特徴はある程度読み取ることができることがわかり、形態素解析用本文データベースを作成する上でのルールがほぼ固まった。 また、『古今著聞集』の抄入部の検証にコンピュータの学習機能を用い、先行論文での指摘と同様の結論が、このような情報処理技術によっても裏付けられることを明らかにした。ここまでの成果について、年度末に論文にまとめて発表している。 その他、『宇治拾遺物語』と『今昔物語集』の形態素解析用本文データベースも全体の8割程度完成している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は、説話文学研究の分野に自然言語処理という情報分野で扱われている技術を取り入れることの有意性を明らかにすることである。そのための一手段として、個々の説話集の特徴を「テキストマイニング」の手法であぶり出し、その結果をもとに、対象とする13の説話集をいくつかのグループに分類しようとしている。しかし、そのためにはまず「テキストマイニング」を行うためのベースとなる、形態素解析用の本文データベースの作成が必要である。 平成29年度は、この本文データベースの作成を進めることに費やした。送り仮名の有無や漢文表記は形態素解析を行う上で大きな問題となるため、本文データベースを作成する際にどのように扱うかを模索した。先に、規模が大きく、和文や漢文がさまざまな形で入り混じっている複雑な作品を取り上げたことにより、形態素解析用本文データベースの作成ルールをほぼ確定させることができた。「研究実績の概要」で述べたように、2作品については本文データベースが完成している。また、その他に対象とする説話集11作品についても、サンプル文を使って形態素解析を試行することができた。本文データベースが完成している2作品のほかに、『今昔物語集』と『宇治拾遺物語』の2作品についても、本文データベースの完成まであと一息というところまできている。本文データベース作成の進捗状況としては、当初の予想以上に費用がかかったこともあり、やや遅れ気味ではあるが、解析の際の問題点や留意点については、当初予定していたよりも早い段階でかなり明確になってきている。 また、コンピュータの学習機能を活かした『古今著聞集』の抄入部の検証は当初予定していなかったものである。しかし、文学作品研究における情報処理技術活用の有意性を明らかにするものとして、一定の成果をあげたと考えているため、全体としてはおおむね順調な進捗状況であるとした。
|
Strategy for Future Research Activity |
初年度において、形態素解析用の本文データベースの作成ルールがほぼ確定したため、次年度はこのルールにしたがって、残りの対象作品の本文データベース完成を目指す。順次業者への入力依頼を行っていくが、1作品にかかる入力の費用が当初の予定を超えているので、自力で入力する箇所を増やすなどしながら、なるべく早期に本文データベースが完成するよう進めていく。 次に、本文データベースが完成したものから随時形態素解析を進め、誤った解析をされた語彙の抽出と、解析辞書や本文データベースの修正を行っていく。 これらの作業に並行し、いくつかの説話集の本文データベースを用いて、テキストマイニングを行う際のクラスタリングの手法について検討を加える。クラスタリングには複数の手法が存在するため、それぞれの手法で試行し、その結果について分析を行う。先行論文での指摘とクラスタリングの結果との乖離などを検証しつつ、説話集の分類という観点に立つ場合、どのようなクラスタリング手法を用いるのが最も有効かを研究分担者とともに探る。 研究の最終段階では、見出した最適なクラスタリング手法を用いて13の説話集を分類し、これまで「仏教説話」か「世俗説話」かに大きく二分されていた説話文学の分野内の再編をはかる。その成果を発表することにより、説話文学研究の分野に自然言語処理分野の手法を取り込むことの有意性について提唱したい。
|
Causes of Carryover |
本文の入力作業について業者に依頼しているが、見積もりの状況から当初の予定よりも費用がかかることが想定されたため、平成29年度は物品の購入を差し控え、入力作業を優先させた。 次年度も、本文入力作業を業者に依頼するための費用にあてる。また、調査や研究会参加のための旅費、前年度に購入できなかった文献等の物品購入にあてる予定である。
|