2020 Fiscal Year Annual Research Report
The classification of narrative literature using the technique of the text mining
Project/Area Number |
17K18499
|
Research Institution | Ibaraki National College of Technology |
Principal Investigator |
平本 留理 茨城工業高等専門学校, 国際創造工学科, 准教授 (20342462)
|
Co-Investigator(Kenkyū-buntansha) |
蓬莱 尚幸 茨城工業高等専門学校, 国際創造工学科, 教授 (80633346) [Withdrawn]
|
Project Period (FY) |
2017-06-30 – 2021-03-31
|
Keywords | 説話集 / 自然言語処理 / 本文データベース / 形態素解析 / テキストマイニング |
Outline of Annual Research Achievements |
本研究の目的は、「説話集の性質分析」という文学研究に自然言語処理分野の手法である「形態素解析」と「テキストマイニング」を持ち込み、その有意性を明らかにしようとするものである。前年度までに、説話集9作品の本文データベースを完成させ、三大説話集を対象としたテキストマイニングの試行を終えている。また、『古今著聞集』の抄入部の疑義に対し、機械学習の一手法である「SVM」を使って機械的に抄入か否かの判定を試み、これまでの文学的手法とは異なるアプローチから、先行論の指摘と同様の結果を導き出すことができたことを論文にて発表した。 最終年度となる今年度は、三大説話集でのテキストマイニングの結果を説話文学会にて発表した。また、本文データベースを作成した9作品を対象にテキストマイニングを試み、階層的クラスタリングと非階層的クラスタリングの2種類での分類結果を導き出した。いずれの場合も、作品の文体や内容的な類似による一定の分類結果を導き出すことができ、文学的見地からもある程度納得のいくものとなったが、一部疑問の残る点もあり、さらに検証するため、詳細の発表は次年度に持ち越しとなってしまった。ただし、テキストマイニングの手法をいろいろと試す中で、階層的クラスタリングにおいてはウォード法を用いると比較的傾向が出やすいこと、非階層的クラスタリングにおいては主にx-meansの手法を用いたが、品詞ごとに分類を出すと文体的な類似や内容面での類似などがより浮き彫りになってくることが明らかになった。 テキストデータの作成段階においてかなり手間取り、本来試みたかったことが十分に検証できたとは言い難いが、今後の文学研究の一助となり得る手法であることは確認できたと考える。
|