2021 Fiscal Year Research-status Report
著作典拠コントロール支援を指向した著作の同定・共有システムの構築
Project/Area Number |
20K12560
|
Research Institution | Keio University |
Principal Investigator |
谷口 祥一 慶應義塾大学, 文学部(三田), 教授 (50207180)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 典拠データ / 典拠コントロール / 著作 / 図書館目録 / メタデータ |
Outline of Annual Research Achievements |
図書館目録における網羅的かつ効率的な著作典拠コントロールをめざして、(a)既存の書誌データから著作(および表現形)データを抽出し照合する方式を基本とすること、(b)照合し統合する処理においては、機械学習を含めて複数方式を組み合わせて適用を図ること、(c)同定済み著作データの公開と共有を意図した適切なメタデータスキーマを策定すること、(d)典拠データの作成に用いられる記述規則の機械可読化を図り組み合わせることなどによって、有効な典拠作業支援システムを構築することを研究目的としている。今年度は以下の研究を遂行した。 1. 著作データのスキーマの策定:RDA(Resource Description and Access)のエレメント等に対して適切なRDF定義(クラスとプロパティ)を導く問題について、メタデータスキーマとしての活用をも含めた利用目的の選択に対応させて適切に語彙定義を導くことができるフレームワークを検討し提案した。 2. 典拠データ作成規則の機械可読データ化:NCR2018(日本目録規則2018年版)の記述規則(典拠データの記録に関わる規定を含む)を対象に、RDFによる適切なデータ表現とすることを意図して、必要な検討項目とその選択肢の提示を試みた。これによって、記述規則と具体的な個別事例のメタデータとの双方向での参照などが実現でき、品質がより一層担保された典拠データとすることに通じる点を示した。 3. 機械可読データ化された記述規則の活用:RDFデータに変換されたNCR2018の3つの章から個別規定間の参照関係を抽出し、条項番号単位などによるグラフを形成した上でネットワーク分析を適用した。グラフの基本的特徴量の確認、中心性の算出とそれに依拠したノードのクラスタリング等を試行した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
4つの研究目的(前述の(a)~(d))に対して、下記の成果3点を得ており、おおむね順調に進展していると判断した。 1. 著作データのスキーマの策定:著作データを含め典拠データの適切なスキーマ策定に向けてRDAのエレメント等のRDF定義を検討し、複数層からなるフレームワークを提示した。これによって、既に取り組み済みであるNCR2018の場合と同様、同定済み著作データの公開と共有を意図した適切なメタデータスキーマを導くことができたと考える。この成果を雑誌論文として公表した。 2. 典拠データ作成規則の機械可読データ化:NCR2018の記述規則を対象にしてRDFによる適切なデータ表現とし、記述規則と具体的な個別事例のメタデータとの双方向での参照などの仕組みを整備した。成果を学会発表し、その後、雑誌論文として公表した。 3. 機械可読データ化された記述規則の活用:RDFデータに変換されたNCR2018の3つの章から個別規定間の参照関係を抽出し、条項番号単位などでグラフを形成した上でネットワーク分析を試行した。その結果、汎用的なネットワーク分析がそのまま適用でき、グラフの基本的特徴量の確認、そして中心性の算出とそれに依拠したノードのクラスタリング等によって有意な結果を得ることができた。成果を学会発表で公表しており、また雑誌論文として投稿している。
|
Strategy for Future Research Activity |
1. 機械学習を含めた複数方式の組み合わせによる著作データの照合・統合処理の試行:人手で作成したルールに基づくルールベース処理による方式や、機械学習を適用した方式など、複数の照合・統合方式の組み合わせを試行し、性能評価を行う。教師あり機械学習の適用を図るため、評価用データ(正解データ)の整備を図りつつ、効率的な正解データの整備法について検討する。機械学習の適用においては、書誌データが表す対象資料がいずれの著作に属するかを予測させる方式と、書誌データの組み合わせが同一著作を表しているかを予測させる方式などを、有効に組み合わせて適用を図る。 2. 著作データのスキーマの策定:典拠データのスキーマに拡張を加えた上で、典拠データの作成時に適用した個別の記述規則を併せて記録した事例データを一定数作成し蓄積する。加えて、適用規則への参照を含む著作データの集積を有効に活用する方策を検討する。 3. 典拠データ作成規則の機械可読データ化と機械可読化された記述規則の活用法検討:NCR2018について有効であった方策がそのままRDAに適用できるのか検討し、さらにはRDAに特有の事項について新たに検討を試みる。実際にRDAの規定群の一部についてRDF化を試行し、提案方式の妥当性検証とする。また、機械可読化されたRDAから参照関係を抽出し、NCR2018の場合と同様、ネットワーク分析を適用する。
|
Causes of Carryover |
1. 著作データのスキーマの策定と並行して、記述規則であるNCR2018のRDFデータ化を試行した。その成果公表において英語論文原稿の執筆と校閲を当初予定していたが、わが国固有の記述規則であるNCR2018のみを対象にした研究成果では海外誌に受け入れられる可能性が低いと判断し投稿を断念した。そのため、原稿の投稿経費(論文掲載料)および英文校閲費が不要となった。今後、RDAを対象にして成果が得られた段階での海外誌への投稿を予定しており、当該原稿の投稿経費(論文掲載料)および英文閲費に充てる計画である。 2. 教師あり機械学習の適用を図るためには、一定量以上の評価用データ(正解データ)が必要となり、既に実験に用いた日本古典著作以外の著作について、人手による整備が必要である。こうした作業には、集合的な特性を有する体現形の扱いなど、データ整備用の基準などが事前に必要となるが、これら基準等が未確定な段階にあるため、データ整備に移行することができなかった。今後、基準等を確定できた段階において、それに依拠した人手によるデータ整備に着手する予定であり、そのための実験補助の経費に充てる。 3. 海外研究協力者との研究打ち合わせはオンライン会議システムを用いて実施しており、そのために計上していた旅費が未使用となった。今後、海外渡航が緩和された段階で出張し、対面による研究打ち合わせを行う計画である。
|
Research Products
(5 results)