研究課題/領域番号 |
16200018
|
研究種目 |
基盤研究(A)
|
研究機関 | 国際日本文化研究センター |
研究代表者 |
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
|
研究分担者 |
早川 聞多 国際日本文化研究センター, 文化資料研究企画室, 教授 (10208605)
合庭 惇 国際日本文化研究センター, 文化資料研究企画室, 教授 (20273154)
相田 満 国文学研究資料館, 文学形成研究系, 助手 (00249921)
原 正一郎 国文学研究資料館, 複合領域研究系, 助教授 (50218616)
柴山 守 京都大学, 東南アジア研究所, 教授 (10162645)
|
キーワード | データマイニング / 古事類苑 / 全文データベース / 古文書 / 知識発見 |
研究概要 |
今年度は、(1)『古事類苑』インデックスの整備、(2)前近代日本史料の全文テキストデータの作成、(3)知識発見手法の開発と評価を実施した。(1)に関しては、『古事類苑』第51巻前半にあたる事項索引(42,000項目)を、UCS2レベルとJIS第2水準レベルの2種類の漢字コードを使って作成した。また、同後半にあたる50音順索引についても、JIS第2水準レベルで入力するとともに、原書では欠けている「よみ」を補った。これらの作業により、前近代日本の基礎的な用語集にあたる電子情報が一応整備されたと考えられる。(2)に関しては、『古事類苑』地部(1)全1,400頁の構造情報付きの全文入力が予定通り完了した。ただし、校正はなお初校段階であり、構造情報の不整合や入力ミスを残している。来年度以後、再校、3校が必要な状況である。また、地部の全文入力と並行して、地部所収の『倭妙類聚抄』にある郷村レベルの地名リストと、同所収の『人国記』の現代語訳も作成した。前者は、『古事類苑』インデックスに現れる前近代日本の概念体系への補完情報として、後者は後述する(3)のテストベットとしての利用を考えている。また、前近代用語を補完するために、古文書読解のための基本辞書として定評がある東京堂出版『くずし字用例辞典』の用語・用例を電子化した。(3)に関しては、国際日本文化研究センターが保有する連歌俳諧データベースをマイニングして、そこから前近代の連想語辞書を作成する実験を行った。現在、2000語程度を連想語として抽出している。今後は、このマイニング結果をさらに分析して、既存の縁語辞典類でカバーされている用語との異動を精査し、あらたな知識が抽出されているか否かを検証する。さらに、(2)で作成した『人国記』現代語訳を使用して、テキスト・データマイニング手法を適用する方法を検討した。
|