2008 Fiscal Year Annual Research Report
根拠の記録を伴う書誌データと記述メタデータの効率的作成法・高度活用法に関する研究
Project/Area Number |
20500221
|
Research Institution | University of Tsukuba |
Principal Investigator |
谷口 祥一 University of Tsukuba, 大学院・図書館情報メディア研究科, 教授 (50207180)
|
Keywords | 書誌データ / 記述メタデータ / 根拠記録 |
Research Abstract |
メタデータの品質・信頼性の向上および相互運用性の実現に向けて、メタデータとそれを構成するデータ項目(要素)値の根拠を値そのものに加えて記録することを提案し、その有効かつ効率的な記録法と高度な活用法をシステム試作や評価実験を通して検証することを目的とする。根拠には、個々のデータ項目の記述処理に際して適用されたルール、あるいは値の出所など記述処理の入出力データなど、広範なものが該当する。図書等に対する書誌データ(書誌レコード)とWebリソースに対する記述メタデータに分け研究を実施することが有効であるため、本年度は書誌データを主対象とした。 1.著作同定用根拠記録の自動生成:同一著作に属する書誌レコード群を機械的かつ正確に同定する、新たな手法を開発した。まず、JAPAN/MARC書誌レコードを対象として、個々の書誌レコードから著作同定キーを必要な数だけ生成し、同定キーの一致をもって同一著作と機械的に判定する方法を採用した。著作同定キーは「著者名+タイトル」との構成とし、その生成には複数の方式を試みた。それぞれの方式ごとに著作のクラスタリングを実行し、人手により形成した正解集合を用いて性能評価を行った。次に、比較的性能が優れていた方式により生成された個々のクラスタに対して、それに属する書誌レコード群から著作同定用の根拠記録(同定ルール群)を機械的に生成した。これを再度、全レコードに適用することによって、著作同定の性能向上を試みた。 2.情報源コピーからのデータ項目値の抽出:書誌レコード作成支援システムの一部として、新規リソースに対する情報源コピーに出現する個々の表示要素(単語列)について、その属する書誌的カテゴリ(タイトル、責任表示等の区分)を複数の手法で推定し、推定結果を適切なデータ項目の候補値とするシステムの試作を進めている。
|