2023 Fiscal Year Research-status Report
著作典拠コントロール支援を指向した著作の同定・共有システムの構築
Project/Area Number |
20K12560
|
Research Institution | Keio University |
Principal Investigator |
谷口 祥一 慶應義塾大学, 文学部(三田), 教授 (50207180)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Keywords | 典拠データ / 典拠コントロール / 著作 / 図書館目録 / メタデータ / リンクトデータ |
Outline of Annual Research Achievements |
図書館目録における網羅的かつ効率的な著作典拠コントロールをめざして、(a)既存の書誌データから著作(および表現形)データを抽出し照合する方式を基本とすること、(b)照合し統合する処理においては、機械学習を含めて複数方式を組み合わせて適用を図ること、(c)同定済み著作データの公開と共有を意図した適切なメタデータスキーマを策定すること、(d)典拠データの作成に用いられる記述規則の機械可読化を図り組み合わせることなどによって、有効な典拠作業支援システムを構築することを研究目的としている。今年度は以下の研究を遂行した。 1. 既存の書誌データからの著作データ抽出と照合:国立国会図書館作成のMARC書誌レコードから日本目録規則2018年版(NCR2018)に従った著作データ・表現形データを機械的に抽出することを、前年度に引き続き実施した。併せて、その区分や扱いが問題となる全体部分関連とaggregate(集合型)について、概念モデルIFLA LRMおよび現行RDAにおける問題点を確認し、それに対して「表現形優先モデル」による解決の可能性について検討した。 2. 著作データのスキーマの策定:同定済み著作・表現形データの公開と共有を意図した適切なRDFベースのメタデータスキーマを策定することを目的に、典拠形アクセス・ポイント、管理番号としてのID、レコード概念などについて再検討を行った。併せて、メタデータスキーマ間のマッピングを複数組み合わせたときに、妥当なマッピングを新たに導くことができるのか、実例をもって検証した。 3. 典拠データ作成規則の機械可読データ化:NCR2018およびRDAにおける規定群自体を、RDFによるリンクトデータに変換することを前年度に引き続き試みた。併せて、大規模化・複雑化した規定群の管理や理解支援に向けて、規定間の参照関係に対してネットワーク分析の適用を試みた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
4つの研究目的(前述の(a)~(d))に対して、今年度新たに下記の成果を得ており、前年度までの成果と合わせて、おおむね順調に進展していると判断した。 1. 既存の書誌データからの著作データ抽出と照合:策定した詳細なマッピングに基づき、国立国会図書館作成のMARC書誌レコードからNCR2018に依拠した抽出と分割、リンクトデータへの変換を引き続き実施した。この変換において特に問題となる全体部分関連とaggregateの類型について詳細な検討を行い、その問題点の確認と「表現形優先モデル」によってシンプルな構図で扱える点を提示した。 2. 著作データのスキーマの策定:昨年度までに検討したリンクトデータ内でのデータの管理情報や由来情報の表現方式に加えて、典拠形アクセス・ポイント、管理番号としてのID、レコード概念などについてリンクトデータ化の観点からそれぞれの機能の確認と必要性の検討、これら相互の関連の確認、可能な選択肢を明らかにした。併せて、メタデータスキーマ間のマッピングを機械的かつ比較的単純な方法で複数組み合わせたときに新たに導出されるマッピングの妥当な範囲とその限界などを明らかにした。 3. 典拠データ作成規則の機械可読データ化:NCR2018およびRDAにおける規定群自体を、その選択肢を示しつつ、リンクトデータに変換した。また、成果であるリンクトデータの有効活用例として、規定群の管理や理解支援に向けて、規定間の参照関係に対してネットワーク分析を適用し、その特徴などを明確化した。
|
Strategy for Future Research Activity |
1. 機械学習を含めた複数方式の組み合わせによる著作データの照合・統合処理の試行:人手で作成したルールに基づくルールベース処理による方式や、機械学習を適用した方式など、複数の照合・統合方式の組み合わせを試行し、性能評価を行う。 2. 有効な典拠作業支援システムの構築に向けた研究成果の統合:当該補助金による研究計画でこれまでに得られた個別の成果を統合し、最終目的である図書館目録における有効な著作典拠コントロール作業支援システムとするための方策を検討し、残された課題等を整理する。併せて、主に今年度得られた成果のうち、雑誌論文として成果公開できていないものについて、その公表等を積極的に進める。 3. 生成AIによるメタデータ作成支援の検証:著作データ・表現形データの照合・統合処理に生成AIを適用する方式、情報源データを与えて生成AIによる体現形データを作成する方式など、メタデータ作成支援に生成AIを活用する方策を検討し、試行および評価を行う。
|
Causes of Carryover |
1. 教師あり機械学習の適用を図るためには、一定量以上の学習・評価用データ(正解データ)が必要となり、既に実験に用いた日本古典著作以外の著作について、人手による整備が必要である。こうした作業には、全体部分関連とaggregateの類型についてデータ整備用の基準などが事前に必要となるが、これらの検討自体が独立した研究を要し、データ整備に着手することができなかった。今後、暫定的に確定した基準等に依拠しつつデータ整備を進める予定であり、そのための経費に充てる。 2. 得られた成果のうち、英語論文としてその成果公表が未着手のものが残されている。これらの原稿執筆に着手し、英語論文原稿の英文校閲費(および、場合によっては論文掲載料)に経費を充てる計画である。
|
Research Products
(5 results)