2009 Fiscal Year Annual Research Report
歴史知識情報の正規化による古記録フルテキストデータベース高度化と記録語の解析研究
Project/Area Number |
21320121
|
Research Institution | The University of Tokyo |
Principal Investigator |
吉田 早苗 The University of Tokyo, 史料編纂所, 教授 (00110693)
|
Co-Investigator(Kenkyū-buntansha) |
本郷 恵子 東京大学, 史料編纂所, 准教授 (00195637)
尾上 陽介 東京大学, 史料編纂所, 准教授 (00242157)
|
Keywords | 古記録 / フルテキスト / 『貞信公記』 / 『九暦』 / 『深心院関白記』 / 中世記録人名索引 / 構造化テキスト生成システム / 翻刻支援システム |
Research Abstract |
本年度においては、古記録フルテキストデータの構造化によるデータベースの高度化を目標として、古記録上に現れるさまざまな語彙の属性分析を進めた。既存のTeXテキストをベースに、属性に応じたXMLタグを発生させるための試行実験を行うとともに、史料編纂所古記録室が刊行する『大日本古記録』の索引データのデジタル化を進め、人名・地名ほか記録用語の属性分類を実践した。具体的には、生成したデジタルコンテンツをベースにXMLタグ生成の諸条件を探るとともに、多様な表現で記される人物・事象の正規化について研究を進めた次第である。なおデジタル化した索引データのうち、『貞信公記』『九暦』『深心院関白記』収録の人名データについては、史料編纂所が提供する中世記録人名索引を介して広く公開している。またタグを活用した構造化テキスト生成システムについては、基盤研究(A)「ネットワーク環境における前近代日本史史料の翻刻・編纂フレームワークの確立」(研究代表者 加藤友康・東大・史料編纂所教授)との協業のもと、「翻刻支援システム」を開発し、古記録史料を素材に、テキスト生成に着手したところである。このシステムにおいては、史料画像上に翻刻テキストを自由に配し、さらにXMLタグを活用したアノテーション付与が可能となっている。上記の属性分析や正規化研究を踏まえて改良を進めてゆくことが次年度以降の課題である。XML構造化テキストから製版データへの移行については、研究者・印刷関係者・編集者による協議をもち検討に着手したところである。
|