2018 Fiscal Year Research-status Report
テキストマイニングの手法を用いた説話集の性質分析と分類
Project/Area Number |
17K18499
|
Research Institution | Ibaraki National College of Technology |
Principal Investigator |
平本 留理 茨城工業高等専門学校, 国際創造工学科, 准教授 (20342462)
|
Co-Investigator(Kenkyū-buntansha) |
蓬莱 尚幸 茨城工業高等専門学校, 国際創造工学科, 教授 (80633346)
|
Project Period (FY) |
2017-06-30 – 2020-03-31
|
Keywords | 国文学 / 説話集 / 本文データベース / 形態素解析 / テキストマイニング |
Outline of Annual Research Achievements |
本研究の目的は、「説話集の性質分析」という文学研究に自然言語処理分野の手法である「形態素解析」と「テキストマイニング」を持ち込み、その有意性を明らかにしようというものである。前年度までに『古今著聞集』と『十訓抄』の形態素解析用本文データベースを完成させており、また、それを作成する上でのいくつかのルール化を行った。 平成30年度は、平成29年度に途中となっていた『宇治拾遺物語』の形態素解析用本文データベースを完成させたほか、『今昔物語集』『江談抄』『富家語』『中外抄』『沙石集』『日本霊異記』の本文データベースを作成した。いずれもそのまま形態素解析を行うにはまだ若干の手直しが必要であるが、これで9作品の本文データベースがそろったことになる。予算と時間の都合上、当初の目的であった13作品の本文データベース化には至らなかったが、三大説話集のほか、文体、成立年、取り上げられている説話の内容等から鑑みて、それぞれ特徴的な説話集のデータベースがそろった。よって、本研究に必要な最低限のデータは確保できたと考えている。 また、三大説話集である『古今著聞集』、『宇治拾遺物語』、『今昔物語集』の本文をもとに、現在テキストマイニングの試行を行っている。この試行により、本研究における説話集の分類に最も適したクラスタリング手法は何かを見極める予定である。 最終的には、この試行で得た最適な手法をもとに、対象9作品の性質上の分類を発表し、説話文学研究の分野に自然言語処理分野の手法を取り込むことの有意性を提唱したい。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本文データベースの作成において新たな懸念材料が出てきたため、新たなルール化が必要となり、予定以上の時間がかかってしまった。また、予算と時間の都合上、当初の予定よりも扱う作品数を減らさざるを得ず、内容面と予算との兼ね合いでどの作品にするかの検討に若干の時間を要した。三大説話集によるテキストマイニングの試行までは当該年度に終わらせておきたかったが、若干作業がずれ込んでいる状況である。
|
Strategy for Future Research Activity |
今後の研究については、以下のとおり進める予定である。 1)三大説話集を用いたテキストマイニングの試行結果をもとに、文学作品研究に最も適したクラスタリング手法の検証を行う。 2)1)で見出したテキストマイニングとクラスタリングの手法を用いて、対象となる9作品の類似性・相違性をあぶりだし、分類を行う。 3)これまでの成果について学会等で発表する。
|
Causes of Carryover |
予算と時間の都合上、研究計画を立てた当初に予定していた作品すべての本文入力を行うことが難しかったため、どの作品に絞るかの検討にやや時間を要した。結果として、本文入力作業の業者依頼において、発注が年度末になったものがあり、支払いが次年度に持ち越されたものがあった。 次年度は、持ち越されていた物品の購入および、学会発表のための資料収集と旅費にあてる予定である。
|