研究概要 |
インターネットの普及に伴い図書館では,実物の公開が困難な貴重な文献を電子化し,電子図書館という形態で公開するようになってきた.特に近年,日本,中国などのアジア圏の図書館などで,このような文献(以下,漢字文献と呼ぶ)の電子化と公開が活発である.漢字文献を電子化には,元の漢字文献をスキャナ等で画像化する方法と,Unicodeなどでテキスト化する方法が挙げられる.前者の場合は,元の漢字文献に近い形式で利用者に示せるが,文字列検索などの情報検索に不向きである.後者の場合は文字列検索には適しているが,文献の内容を記述するために必要な文字(漢字)が標準的な符号化文字集合に含まれていないことがあるため,文献の内容を正確に記述できないことがある.そこで,本研究では,元の漢字文献を電子化した画像とその画像に関連するテキスト情報を一つのXML文書として扱うためのデータモデルを設計した.提案モデルによって,元の文献の見た目を再現した文献の閲覧環境と文字列検索を用いた文献検索を可能にする.漢字文献に関連するテキスト情報には,漢字文献の内容をテキスト化したものの他に,個々の文字に関する意味情報,文献中の人名などの単語に関する意味情報を記述する.また,XMLを用いることで,データ交換が容易になるだけでなく,外字処理をXML文書処理の一部として実装できると考えられる.本研究では提案モデルに対して,文字列による漢字文献データの検索処理と,漢字文献データから任意の情報を抽出する操作を定義した.このような操作を定義することで,電子図書館などで公開される漢字文献データ集合から利用者の要求に合わせた情報の提示や編集が可能になると考えられる.また,本研究では百人一首の画像とテキスト情報を用いて,提案モデルと操作の実用性を検証するためのプロトタイプシステムを実装した.
|