2005 Fiscal Year Annual Research Report
前近代日本の諸概念を対象にした知識発見のためのマイニング資源の開発
Project/Area Number |
16200018
|
Research Institution | International Research Center for Japanese Studies |
Principal Investigator |
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
|
Co-Investigator(Kenkyū-buntansha) |
早川 聞多 国際日本文化研究センター, 文化資料研究企画室, 教授 (10208605)
合庭 惇 国際日本文化研究センター, 文化資料研究企画室, 教授 (20273154)
相田 満 国文学研究資料館, 文学形成研究系, 助手 (00249921)
原 正一郎 国文学研究資料館, 複合領域研究系, 助教授 (50218616)
柴山 守 京都大学, 東南アジア研究所, 教授 (10162645)
|
Keywords | データマイニング / 古事類苑 / 全文データベース / 古文書 / 知識発見 |
Research Abstract |
今年度は、(1)『古事類苑』シソーラス辞書のプロトタイプ作成、(2)前近代日本史料の全文テキストデータの作成、(3)知識発見手法の開発と評価を実施した。(1)に関しては、平成16年度に作成した『古事類苑』事項索引(約42,000項目)と50音索引(約64,000項目)をもとに、別途作成した『古事類苑』天部の全文データ(UTF-16、約18万文字)と『古事類苑』全巻の頁画像データ(約67,000頁)をリンクしてWEBブラウザで閲覧できるプロトタイプを作成した。これらの作業により、前近代日本の基礎的な用語集にあたる電子情報の基盤が一応整備されたと考えられる。来年度以後このプロトタイプの評価を実施し、マイニング資源としての有効性を確認する。(2)に関しては、『古事類苑』地部(2)全1,400頁と同(3)の前半700頁の構造情報付きの全文入力が予定通り完了した。ただし、校正は未着手である。また、平成16年度に入力した地部(1)の校正を再校まで実施したものの、外字の同定やUTF-16化にまだ問題を残しており、マイニング資源として活用するのはさらなる校正が必要である。また、前近代用語を補完するために、古文書読解のための基本辞書として定評がある東京堂出版『くずし字用例辞典』の用語・用例を電子化を引き続き実施した。(3)に関しては、国際日本文化研究センターが保有する連歌俳譜データベースをマイニングして、そこから前近代の連想語辞書を作成する実験を引き続き行い、連歌における「ほととぎす」のイメージの時代的な変遷についてあらたな知識発見に成功した。その成果を情報処理学会のシンポジウムで公表するとともに、朝日新聞の文化欄でも成果が報道された。
|
Research Products
(4 results)