研究課題/領域番号 |
16200018
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
情報図書館学・人文社会情報学
|
研究機関 | 国際日本文化研究センター |
研究代表者 |
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
|
研究分担者 |
早川 聞多 国際日本文化研究センター, 文化資料研究企画室, 教授 (10208605)
合庭 惇 国際日本文化研究センター, 文化資料研究企画室, 教授 (20273154)
相田 満 国文学研究資料館, 文学形成研究系, 助手 (00249921)
原 正一郎 京都大学, 地域総合情報センター, 教授 (50218616)
柴山 守 京都大学, 東南アジア研究所, 教授 (10162645)
|
研究期間 (年度) |
2004 – 2006
|
キーワード | データマイニング / 古事類苑 / 全文データベース / 古文書 / 知識発見 |
研究概要 |
『古事類苑』「地部」約4,200頁のXML構造情報付きの全文入力を完了した。これらのうち「地部」(1)は4校までほどこしたうえで、外字の確定、ユニコード外文字からユニコードへの変換テーブルも作成し、完全データとして作成した。同(2)については再校まで、同(3)については初校までを行った。また、前近代の用語を補完するために、古文書読解のための基本辞書として定評がある東京堂出版『くずし字用例辞典』の用語・用例を電子化した。 『古事類苑』事項索引(約42,000項目)と50音索引(約64,000項目)をもとに、別途作成した『古事類苑』天部の全文データと『古事類苑』全巻の頁画像データ(約67,000頁)をリンクしてWEBブラウザで閲覧できるシステムを作成した。これらの作業により、前近代日本の基礎的な用語集にあたる電子情報の基盤が整備された。また、『古事類苑』の事項索引をもとにしてシソーラス辞書を作成公開し、日本語形態素解析にも使える辞書をインデックス項目から試作した。また、『古事類苑』本文データベースと画像データベースのHTML版を国際日本文化研究センターと国文学研究資料館から一部公開した。さらに、Wiki版についても試作を行い、公開の可能性と問題点をあきらかにした。 知識発見手法の開発と評価として、国際日本文化研究センターが保有する連歌俳諧データベースをマイニングして、そこから前近代の連想語彙用例辞典を作成し、連歌における「ほととぎす」のイメージの時代的な変遷についてあらたな知識発見に成功した。そうして作成した、連想語彙用例辞典を書籍化し出版した。
|