研究課題/領域番号 |
15320033
|
研究機関 | 国文学研究資料館 |
研究代表者 |
野本 忠司 国文学研究資料館, 複合領域研究系, 助教授 (20321557)
|
研究分担者 |
松村 雄二 国文学研究資料館, 文学形成研究系, 教授 (10086689)
中村 康夫 国文学研究資料館, 文学形成研究系, 教授 (60144680)
大高 洋司 国文学研究資料館, 文学資源研究系, 教授 (60152162)
原 正一郎 国文学研究資料館, 複合領域研究系, 助教授 (50218616)
相田 満 国文学研究資料館, 文学形成研究系, 助手 (00249921)
|
キーワード | アノテーション / 二分木 / SUFFIX ARRAY / 日本古典文学 / 検索 / 電子化テキスト |
研究概要 |
前年度は古典文章の多重表記をモデル化するフレームワークとしてアノテーション・グラフ(annotation graph)(AG)のRDBへの実装を行ったが、本年度は、RDBへの実装の大きな問題として多重アノテーションの検索速度がきわめて遅いという問題に取り組んだ。その結果、AGをハッシュ化してデータをすべてメモリ上の二分木に格納し、よく知られた二分木検索でデータにアクセスする方法を取ることにした。ただし、多重アノテーションのすべての部分文字列をメモリに格納するのは現実的ではないため、ある一定の長さまでの文字列のみを二分木に格納し、それ以上の長さを持つ文字列については、AGをオートマトン化してその上で検索するという方法を取ることにした。簡単な1重のアノテーションについて、シミュレーション実験を行った結果、高速なSUFFIX ARRAY方式とほぼ同等の速度が得られることを確認した。ちなみに、SUFFIX ARRAYでは多重アノテーションを効率よく表現できない。 多重表記に対する別のアプローチとして、RTFフォーマットの利用の可能性について検証を行った。実際に南総里見八犬伝(新潮古典集成)を使って、漢文用の訓点(一・二・雁がね点)のほか、割り注・割り注ルビ・左右ルビ等の入力を試み、その表現力について検証した。
|