研究課題/領域番号 |
17K00452
|
研究機関 | 慶應義塾大学 |
研究代表者 |
谷口 祥一 慶應義塾大学, 文学部(三田), 教授 (50207180)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 典拠データ / エージェント / 著作 / 表現形 / 典拠コントロール |
研究実績の概要 |
図書館目録における典拠コントロールの一層の充実をめざして、(a)個人や団体等というエージェントに対する国内の典拠データを仮想的に統合し、より包括的な典拠データとすること、(b)既存の書誌データから著作および表現形に関する事項を抽出し、包括的な著作・表現形典拠データを形成すること、および(c)統合型の典拠データを適切に表現し管理できるメタデータスキーマを策定することを研究目的としている。今年度は以下の研究を遂行した。 1. メタデータスキーマとその基盤となる概念モデルの検討:エージェントおよび著作、表現形などを表現し管理する適切な典拠データ用スキーマの策定に向けて、特にRDAの適用を想定してメタデータスキーマを検討した。候補となるMARC21、RDA Registryの登録語彙(RDA語彙)を用いたスキーマ、BIBFRAME、およびMARC21から他の2つへの事後的な変換という5つの方式それぞれに対して、設定した複数の観点から検討した。また、それらの基盤となる概念モデルレベルの検討としてBIBFRAMEとIFLA Library Reference Modelなどを取り上げ、RDFモデルベースでのクラス間・プロパティ間のマッピングとマージ(併合)を検討した。 2. エージェント典拠データの照合と統合:国立国会図書館作成の著者名典拠データとNACSIS-CAT著者名典拠データの照合、およびリンクする書誌データ間の照合を加えた典拠データの照合を試行した。併せて、国際的な典拠データ間の照合結果をマッピングとして公開しているVIAF(バーチャル国際典拠ファイル)の処理結果について妥当性の検証を試みた。 3. 著作同定への機械学習の適用:既存書誌データからの著作の抽出を意図して、機械学習による著作の同定を試みた。特に難易度が高い日本の古典著作の同定に向けて、同定実験を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
3つの研究目的それぞれに対して、下記の成果を得ており、順調に進展していると判断した。 1. メタデータスキーマとその基盤となる概念モデルの検討:RDAの適用を想定したとき、現行MARC21、RDA語彙を用いたスキーマ、BIBFRAME、およびMARC21から他の2つへの事後的な変換という5つの方式それぞれに対して、設定した複数の観点から検討し、各方式の特徴や問題点を明らかにした。加えて、RDA語彙において欠如している点を補うべく、構造化して値を表現できるよう拡張を提案した。また、複数の概念モデルに対してRDFによるクラスおよびプロパティに変換した上で、それらのマッピングの結果、マージにおける複数の選択肢とその結果を提示した。併せて、RDFクラスおよびプロパティのマッピングとマージの成立要件を形式化してまとめた。これらの成果は、雑誌論文と学会発表として公表している。 2. エージェント典拠データの照合と統合:国立国会図書館の著者名典拠データとNACSIS-CAT著者名典拠データの照合、加えてそれらにリンクする書誌データ間の照合を用いた典拠データの照合を行い、精度の高いマッピングを実現した。また、VIAFによるマッピング結果を日本名個人名に限定して検証を行い、適切なマッピングとされていない事例を効率的に特定する方法を提案した。 3. 著作同定への機械学習の適用:FRBR研究会が人手で判定した日本古典著作に該当する書誌データを正解集合とし、それら以外の書誌データを加えて実験集合を形成した。このデータ集合に対して複数の機械学習を適用した著作同定実験を行い、基本的な性能を確認した段階にある。細部にわたる実験は未了であり、今後に残されている。
|
今後の研究の推進方策 |
1. エージェント典拠データの照合と統合:昨年度に引き続き、国立国会図書館の著者名典拠データとNACSIS-CAT著者名典拠データの照合と統合を試行し、その成果をまとめ公表に努める。さらに、入手できた他の図書館作成の典拠データを加えた照合と統合化を試みる。それぞれの典拠データの特性等を考慮した複数の照合方式を試行し、方式間での性能評価を行う。 2. 既存書誌データからの著作・表現形データの抽出と統合:(a)引き続き、既存書誌データからの著作の抽出を意図して機械学習を適用した著作同定を試みる。また、その性能をルールベース方式(照合するデータ項目とその優先順位を事前に決定し照合を実行する方式)で著作同定を行ったときと比較し、さらには両方式を組み合わせたときの性能評価を試みる。(b)表現形については、同一著作として同定された書誌データから表現形に該当する事項を抽出し、複数の設定可能な表現形の単位(言語の単位、同一責任表示の単位など)を検討しつつデータの統合化を図る。なお、著作と表現形の基準や扱いについては、RDAおよびNCR2018に従ったものとする。(c)著作間の関連や表現形間の関連についても、どの程度の手がかりが抽出できるのか検証する。(d)並行して、VIAFやWorldCat Worksにおける著作や表現形の設定結果との異同を検証する。
|
次年度使用額が生じた理由 |
典拠データ記述に適切なメタデータスキーマの検討結果にかかわる成果公表において、英語論文原稿の校閲を予定していたが、主対象としたRDA Registryの登録語彙(RDA語彙)がその後変更(更新)されることになった。最終的な語彙が不明であることなどにより、原稿執筆が完了せず、校閲にかかる経費が残額となった。 これを次年度使用額とし、変更後のRDA語彙が想定している範囲内に収まるものであることが確認できた段階で、原稿執筆を再開し、その原稿の英文校閲費に充てる。
|