2001 年度実績報告書

意味付き文字画像を用いた電子文献の作成と利用

研究課題

研究課題/領域番号	13780339
研究種目	奨励研究(A)
研究機関	島根県立大学
研究代表者	石川正敏島根県立大学, 総合政策学部, 助手 (90332973)
キーワード	電子図書館 / 漢字文献 / 外字処理 / 意味付き文字画像 / XML / データベース
研究概要	インターネットの普及に伴い図書館では,実物の公開が困難な貴重な文献を電子化し,電子図書館という形態で公開するようになってきた.特に近年,日本,中国などのアジア圏の図書館などで,このような文献(以下,漢字文献と呼ぶ)の電子化と公開が活発である.漢字文献を電子化には,元の漢字文献をスキャナ等で画像化する方法と,Unicodeなどでテキスト化する方法が挙げられる.前者の場合は,元の漢字文献に近い形式で利用者に示せるが,文字列検索などの情報検索に不向きである.後者の場合は文字列検索には適しているが,文献の内容を記述するために必要な文字(漢字)が標準的な符号化文字集合に含まれていないことがあるため,文献の内容を正確に記述できないことがある.そこで,本研究では,元の漢字文献を電子化した画像とその画像に関連するテキスト情報を一つのXML文書として扱うためのデータモデルを設計した.提案モデルによって,元の文献の見た目を再現した文献の閲覧環境と文字列検索を用いた文献検索を可能にする.漢字文献に関連するテキスト情報には,漢字文献の内容をテキスト化したものの他に,個々の文字に関する意味情報,文献中の人名などの単語に関する意味情報を記述する.また,XMLを用いることで,データ交換が容易になるだけでなく,外字処理をXML文書処理の一部として実装できると考えられる.本研究では提案モデルに対して,文字列による漢字文献データの検索処理と,漢字文献データから任意の情報を抽出する操作を定義した.このような操作を定義することで,電子図書館などで公開される漢字文献データ集合から利用者の要求に合わせた情報の提示や編集が可能になると考えられる.また,本研究では百人一首の画像とテキスト情報を用いて,提案モデルと操作の実用性を検証するためのプロトタイプシステムを実装した.

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] 石川正敏, 波多野賢治, 天笠俊之, 吉川正俊, 植村俊亮, 勝村哲也: "意味付き文字画像を用いた文献の電子化"情報処理学会研究報告. Vol.2001 No.44. 113-120 (2001)
[文献書誌] 石川正敏, 波多野賢治, 天笠俊之, 吉川正俊, 植村俊亮, 勝村哲也: "XMLを用いた再構築可能な漢字文献データモデル"電子情報通信学会第13回データ工学ワークショップ(DEWS2002). (2002)