2006 Fiscal Year Annual Research Report
前近代日本の諸概念を対象にした知識発見のためのマイニング資源の開発
Project/Area Number |
16200018
|
Research Institution | International Research Center for Japanese Studies |
Principal Investigator |
山田 奨治 国際日本文化研究センター, 研究部, 助教授 (20248751)
|
Co-Investigator(Kenkyū-buntansha) |
早川 聞多 国際日本文化研究センター, 文化資料研究企画室, 教授 (10208605)
合庭 惇 国際日本文化研究センター, 文化資料研究企画室, 教授 (20273154)
相田 満 国文学研究資料館, 文学形成研究系, 助手 (00249921)
原 正一郎 京都大学, 地域統合情報センター, 教授 (50218616)
柴山 守 京都大学, 東南アジア研究所, 教授 (10162645)
|
Keywords | データマイニング / 古事類苑 / 全文データベース / 古文書 / 知識発見 |
Research Abstract |
平成18年度は、(1)『電子古事類苑』ならびにシソーラス辞書の公開と共有の検討、(2)前近代日本史料の全文テキストデータの作成、(3)知識発見手法の開発と評価について成果をあげることができた。 第1の『電子古事類苑』ならびにシソーラス辞書の公開と共有の検討では、平成17年度までに作成したシソーラス辞書を公開し、インデックス項目から日本語形態素解析にも使える辞書を試作した。また、『古事類苑』「天部」本文データベースと画像データベースのHTML版を国際日本文化研究センターと国文学研究資料館から一部公開した。さらに、「地部」も含めたWiki版についても試作を行い、公開の可能性と問題点をあきらかにした。これらの結果、「天部」がテキストと画像を連結した形式で一般に公開され、試用に供されている。また、ネットワーク利用による全文テキストデータ作成・校正のプラットフォームとして期待されるWiki版について、今後の開発方針を検討することができた。 第2の前近代日本史料の全文テキストデータの作成については、『古事類苑』地部(1)全文テキストデータを4校まで行い、外字の確定、Unicode外文字からUnicodeへの変換テーブルを作成し、校了にした。同(2)は再校まで実施、同(3)は初校まで実施した。また、XML化について基礎的な検討を行い、タグのプロトタイプを作成した。今後はこれらのタグプロトタイプをいっそう精緻なものにして、実用にまで高めることが課題として残った。 第3の知識発見手法の開発と評価では、連歌・俳諧データベースに対して知識発見手法を適用し、連想語彙用例辞典を構築・公開した。これはのべ約20万句の連歌から複数の用例が認められる677語彙を抽出し、連想語彙辞典として作成したもので、冊子体で刊行するとともに、そのPDFファイルをインターネットで公開している。
|