• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2004 年度 実績報告書

前近代日本の諸概念を対象にした知識発見のためのマイニング資源の開発

研究課題

研究課題/領域番号 16200018
研究種目

基盤研究(A)

研究機関国際日本文化研究センター

研究代表者

山田 奨治  国際日本文化研究センター, 研究部, 助教授 (20248751)

研究分担者 早川 聞多  国際日本文化研究センター, 文化資料研究企画室, 教授 (10208605)
合庭 惇  国際日本文化研究センター, 文化資料研究企画室, 教授 (20273154)
相田 満  国文学研究資料館, 文学形成研究系, 助手 (00249921)
原 正一郎  国文学研究資料館, 複合領域研究系, 助教授 (50218616)
柴山 守  京都大学, 東南アジア研究所, 教授 (10162645)
キーワードデータマイニング / 古事類苑 / 全文データベース / 古文書 / 知識発見
研究概要

今年度は、(1)『古事類苑』インデックスの整備、(2)前近代日本史料の全文テキストデータの作成、(3)知識発見手法の開発と評価を実施した。(1)に関しては、『古事類苑』第51巻前半にあたる事項索引(42,000項目)を、UCS2レベルとJIS第2水準レベルの2種類の漢字コードを使って作成した。また、同後半にあたる50音順索引についても、JIS第2水準レベルで入力するとともに、原書では欠けている「よみ」を補った。これらの作業により、前近代日本の基礎的な用語集にあたる電子情報が一応整備されたと考えられる。(2)に関しては、『古事類苑』地部(1)全1,400頁の構造情報付きの全文入力が予定通り完了した。ただし、校正はなお初校段階であり、構造情報の不整合や入力ミスを残している。来年度以後、再校、3校が必要な状況である。また、地部の全文入力と並行して、地部所収の『倭妙類聚抄』にある郷村レベルの地名リストと、同所収の『人国記』の現代語訳も作成した。前者は、『古事類苑』インデックスに現れる前近代日本の概念体系への補完情報として、後者は後述する(3)のテストベットとしての利用を考えている。また、前近代用語を補完するために、古文書読解のための基本辞書として定評がある東京堂出版『くずし字用例辞典』の用語・用例を電子化した。(3)に関しては、国際日本文化研究センターが保有する連歌俳諧データベースをマイニングして、そこから前近代の連想語辞書を作成する実験を行った。現在、2000語程度を連想語として抽出している。今後は、このマイニング結果をさらに分析して、既存の縁語辞典類でカバーされている用語との異動を精査し、あらたな知識が抽出されているか否かを検証する。さらに、(2)で作成した『人国記』現代語訳を使用して、テキスト・データマイニング手法を適用する方法を検討した。

  • 研究成果

    (4件)

すべて 2005 2004

すべて 雑誌論文 (3件) 図書 (1件)

  • [雑誌論文] 『古事類苑』プロジェクトの構想2005

    • 著者名/発表者名
      相田 満
    • 雑誌名

      「文化科学研究分野における情報資源共有化のためのコラボレーション研究」第1回研究集会報告書

      ページ: 170-180

  • [雑誌論文] 文化拡散と知財保護の相克2005

    • 著者名/発表者名
      山田 奨治
    • 雑誌名

      情報処理学会研究報告 2005(32)

      ページ: 1-8

  • [雑誌論文] 目録データベースの高次化によるデータマイニングを可能とするために-複数種のオントロジ辞書の利用・接合により検索効率の向上を試みる-2004

    • 著者名/発表者名
      相田 満
    • 雑誌名

      情報処理学会論文集「人文科学とコンピュータシンポジウム(じんもんこん2004)」

      ページ: 73-80

  • [図書] 情報のみかた2005

    • 著者名/発表者名
      山田 奨治
    • 総ページ数
      240
    • 出版者
      弘文堂(発表予定)

URL: 

公開日: 2006-07-12   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi