2020 Fiscal Year Research-status Report

著作典拠コントロール支援を指向した著作の同定・共有システムの構築

Research Project

Project/Area Number	20K12560
Research Institution	Keio University
Principal Investigator	谷口祥一慶應義塾大学, 文学部(三田), 教授 (50207180)
Project Period (FY)	2020-04-01 – 2024-03-31
Keywords	典拠データ / 典拠コントロール / 著作 / 図書館目録 / メタデータ
Outline of Annual Research Achievements	図書館目録における網羅的かつ効率的な著作典拠コントロールをめざして、(a)既存の書誌データから著作（および表現形）データを抽出し照合する方式を基本とすること、かつ単一データセット内の処理から複数データセット間の処理へと順次拡大する方式とすること、(b)照合し統合する処理においては、機械学習を含めて複数方式を組み合わせて適用を図ること、(c)同定済み著作データの公開と共有を意図した適切なメタデータスキーマを策定することなどによって、有効な典拠作業支援システムを構築することを研究目的としている。今年度は以下の研究を遂行した。 1. 著作データのスキーマの策定：日本目録規則2018年版（NCR2018）およびRDA（Resource Description and Access）のエレメントや関連指示子等に対して適切なRDF定義（クラスとプロパティ）を導く問題について、メタデータスキーマとしての活用をも含めた利用目的の選択に対応させて適切に語彙定義を導くことができるフレームワークを検討し提案した。 2. 典拠データ作成規則の機械可読データ化：NCR2018とRDAの記述規則（典拠データの記録に関わる規則を含む）を対象にして、RDFによる適切なデータ表現とすることを意図して、必要な検討項目とその選択肢の提示を試みた。これによって、記述規則と具体的な個別事例のメタデータとの双方向での参照などが実現でき、品質がより一層安定した典拠データとすることに通じる点を示した。 3. 既存の書誌データからの著作データ抽出と照合：国立国会図書館作成の書誌データから網羅的・包括的に著作データを機械的に抽出することを意図して、特に問題となる集合的な特性を有する体現形の処理などに焦点を当て、複数の方式による抽出を検討し試行した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 3つの研究目的のうち、主に2つについて下記の成果（3点）を得ており、おおむね順調に進展していると判断した。 1. 著作データのスキーマの策定：著作データを含め典拠データの適切なスキーマ策定に向けて、NCR2018およびRDAのエレメント等のRDF定義を検討し、複数層からなるフレームワークを提示した。これによって、同定済み著作データの公開と共有を意図した適切なメタデータスキーマを導くことができたと考える。成果は学会発表および雑誌論文として公表した。ただし、RDAを対象にした英語論文の執筆は未了である。 2. 典拠データ作成規則の機械可読データ化：NCR2018とRDAの記述規則を対象にしてRDFによる適切なデータ表現とし、記述規則と具体的な個別事例のメタデータとの双方向での参照などの仕組みを整備した。今後さらに、この方向での展開の余地があるものと期待できる。成果は学会発表において公表したが、雑誌論文としての公表作業が今後必要となる。 3. 既存の書誌データからの著作データ抽出と照合：著作データの機械的な抽出に伴う大きな問題の1つである集合的な特性を有する体現形の処理に焦点を当て、複数の方式を検討し試行した。ただし、この研究については着手段階にあり、今度さらに検討と試行が必要である。
Strategy for Future Research Activity	1. 既存の書誌データからの著作データの抽出・照合・統合の実施：単一の既存書誌データセット内の個別書誌データから著作に該当する事項を機械的に抽出し、その後、照合し同一著作のデータに統合化を図る。著作間の等価関係以外の多様な関連づけも可能な範囲で実施する。さらには、個別の書誌データセット内の処理を行ったもの同士を、複数の異なるデータセット間で照合しマッピングを図る。こうした著作データ抽出と照合の際に特に問題となる、集合的な特性を有する体現形の処理など、引き続きいくつかの重要な問題に焦点を当て検討する。 2. 機械学習を含めた複数方式の組み合わせによる著作データの照合・統合処理の試行：人手で作成したルールに基づくルールベース処理による方式や、機械学習を適用した方式など、複数の照合・統合方式の組み合わせを試行し、性能評価を行う。教師あり機械学習の適用を図るため、評価用データ（正解データ）の整備を図りつつ、効率的な正解データの整備法について検討する。機械学習の適用においては、書誌データが表す対象資料がいずれの著作に属するかを予測させる方式と、書誌データの組み合わせが同一著作を表しているかを予測させる方式などを、有効に組み合わせて適用を図る。 3. 著作データのスキーマの策定：典拠データのスキーマに拡張を加えた上で、典拠データの作成時に適用した個別の記述規則を記録した事例データを一定数作成し蓄積する。併せて、適用規則への参照を含む著作データの集積を有効に活用する方策を検討する。
Causes of Carryover	1. 著作データのスキーマの策定の一環として、RDAなどの記述規則のRDFデータ化を試行した。しかし、その成果公表において英語論文原稿の執筆と校閲を予定していたが、未だに途中段階にある。原稿執筆を完了し、当該原稿の投稿経費（論文掲載料）および英文校閲費に充てる。 2. 教師あり機械学習の適用を図るためには、一定量以上の評価用データ（正解データ）が必要となり、既に実験に用いた日本古典著作以外の著作について、人手による整備が必要である。こうした作業には、集合的な特性を有する体現形の扱いなど、データ整備用の基準などが事前に必要となるが、これら基準等が未確定な段階にあるため、データ整備に移行することができなかった。今後、基準等を確定できた段階において、それに依拠した人手によるデータ整備に着手する予定であり、そのための実験補助の経費に充てる。 3. 海外研究協力者との研究打ち合わせはオンライン会議システムを用いて実施しており、そのために計上していた旅費が未使用となった。