• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

古典文章表記構造の統合処理と検索エンジンの研究

研究課題

研究課題/領域番号 15320033
研究機関国文学研究資料館

研究代表者

野本 忠司  国文学研究資料館, 複合領域研究系, 助教授 (20321557)

研究分担者 松村 雄二  国文学研究資料館, 文学形成研究系, 教授 (10086689)
中村 康夫  国文学研究資料館, 文学形成研究系, 教授 (60144680)
大高 洋司  国文学研究資料館, 文学資源研究系, 教授 (60152162)
原 正一郎  国文学研究資料館, 複合領域研究系, 助教授 (50218616)
相田 満  国文学研究資料館, 文学形成研究系, 助手 (00249921)
キーワードアノテーション / 二分木 / SUFFIX ARRAY / 日本古典文学 / 検索 / 電子化テキスト
研究概要

前年度は古典文章の多重表記をモデル化するフレームワークとしてアノテーション・グラフ(annotation graph)(AG)のRDBへの実装を行ったが、本年度は、RDBへの実装の大きな問題として多重アノテーションの検索速度がきわめて遅いという問題に取り組んだ。その結果、AGをハッシュ化してデータをすべてメモリ上の二分木に格納し、よく知られた二分木検索でデータにアクセスする方法を取ることにした。ただし、多重アノテーションのすべての部分文字列をメモリに格納するのは現実的ではないため、ある一定の長さまでの文字列のみを二分木に格納し、それ以上の長さを持つ文字列については、AGをオートマトン化してその上で検索するという方法を取ることにした。簡単な1重のアノテーションについて、シミュレーション実験を行った結果、高速なSUFFIX ARRAY方式とほぼ同等の速度が得られることを確認した。ちなみに、SUFFIX ARRAYでは多重アノテーションを効率よく表現できない。
多重表記に対する別のアプローチとして、RTFフォーマットの利用の可能性について検証を行った。実際に南総里見八犬伝(新潮古典集成)を使って、漢文用の訓点(一・二・雁がね点)のほか、割り注・割り注ルビ・左右ルビ等の入力を試み、その表現力について検証した。

  • 研究成果

    (4件)

すべて 2005

すべて 雑誌論文 (4件)

  • [雑誌論文] 歴史人物画像データベース」構築奮闘記2005

    • 著者名/発表者名
      相田 満
    • 雑誌名

      情報知識学会誌 8

      ページ: 7-14

  • [雑誌論文] データベース共有におけるデータマッピングの事例的研究2005

    • 著者名/発表者名
      原 正一郎, 相田 満, 入口 敦志, 江戸 英雄, 五島 敏芳, 山田 直子
    • 雑誌名

      情報処理学会研究報告人文科学とコンピュータ 8

      ページ: 31-38

  • [雑誌論文] 日本文化のオントロジ-『古事類苑』のデータベース化のために-2005

    • 著者名/発表者名
      相田 満
    • 雑誌名

      第29回イタリア日本研究学会・日本文学国際共同研究研究集会予稿集

      ページ: 17-19

  • [雑誌論文] 国書古典籍中の挿絵・絵本に描かれた実在キャラクター達の存在意義-情報学から文学論へのエチュードとして-2005

    • 著者名/発表者名
      相田 満
    • 雑誌名

      人文系データベース協議会 第11回公開シンポジウム「人文科学とデータベース」論文集

      ページ: 37-46

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi