研究課題/領域番号 |
20K12560
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 慶應義塾大学 |
研究代表者 |
谷口 祥一 慶應義塾大学, 文学部(三田), 教授 (50207180)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 典拠データ / 典拠コントロール / 著作 / 図書館目録 / メタデータ / リンクトデータ |
研究開始時の研究の概要 |
図書館目録における典拠コントロールの一層の充実をめざして、網羅的かつ効率的な著作典拠コントロールの実現を意図した、典拠作業支援システムの構築を目的とする。(a)既存の書誌データから著作(および表現形)データを抽出し照合する方式を基本とすること、かつ単一データセット内の処理から複数データセット間の処理へと順次拡大する方式とすること、(b)照合し統合する処理においては、機械学習を含めて複数方式を組み合わせて適用を図ること、(c)同定済み著作データの公開と共有を意図した適切なメタデータスキーマを策定することを実行し、それらの有効性を検証する。
|
研究実績の概要 |
図書館目録における網羅的かつ効率的な著作典拠コントロールをめざして、(a)既存の書誌データから著作(および表現形)データを抽出し照合する方式を基本とすること、(b)照合し統合する処理においては、機械学習を含めて複数方式を組み合わせて適用を図ること、(c)同定済み著作データの公開と共有を意図した適切なメタデータスキーマを策定すること、(d)典拠データの作成に用いられる記述規則の機械可読化を図り組み合わせることなどによって、有効な典拠作業支援システムを構築することを研究目的としている。今年度は以下の研究を遂行した。 1. 既存の書誌データからの著作データ抽出と照合:国立国会図書館作成のMARC書誌レコードから日本目録規則2018年版(NCR2018)に従った著作データ・表現形データを機械的に抽出することを、詳細なマッピングの検討を踏まえて実施した。同一著作・表現形の照合と統合は機械的に安定して実施できるレベルでの処理にとどめる方式とした。併せて、著作・表現形データの照合には、対象データを提供された元の形式のまま実行する方式と、リンクトデータを形成した上で実行する方式を並行して試行した。 2. 著作データのスキーマの策定:同定済み著作・表現形データの公開と共有を意図した適切なRDFベースのメタデータスキーマを策定することを目的に、MARCレコードから機械的に抽出・統合した著作・表現形データおよび体現形・個別資料データを、RDFを用いた複数表現方式のリンクトデータに変換して表現した。 3. 典拠データ作成規則の機械可読データ化:NCR2018およびRDAにおける規定群自体をRDFによって表現することを検討し、リンクトデータに変換した。併せて、それらの適用結果である著作データとのリンクや、規定間の参照関係へのネットワーク分析の適用などを試みた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
4つの研究目的(前述の(a)~(d))に対して、今年度新たに下記の成果を得ており、2021年度までの成果と合わせて、おおむね順調に進展していると判断した。 1. 既存の書誌データからの著作データ抽出と照合:策定した詳細なマッピングに基づき、国立国会図書館作成のMARC書誌レコードからNCR2018に依拠した抽出と分割を行い、リンクトデータに変換した。これによって、機械的変換の有効な範囲および課題等を確認することができた。 2. 著作データのスキーマの策定:MARCレコードから機械的に抽出・統合した著作・表現形データおよび体現形・個別資料データを、複数表現方式によるリンクトデータに変換し、その妥当性を検証した。その結果、可能な表現方式およびその特徴・課題等について明らかにすることができた。併せて、リンクトデータ内でのデータの管理情報や由来情報の表現方式について検討し、成果をまとめた。 3. 典拠データ作成規則の機械可読データ化:NCR2018およびRDAにおける規定群自体をRDFによって表現することを検討し、選択肢を提示するとともに、リンクトデータに変換した。こうした試行は海外においても例はなく、成果としてのリンクトデータの活用可能性を含めて、新たな研究の可能性を広げた成果と評価される。 4. 成果公表:上記のそれぞれの成果を雑誌論文として公表するとともに、本研究の一部の成果を反映させた図書の執筆を行った。
|
今後の研究の推進方策 |
1. 機械学習を含めた複数方式の組み合わせによる著作データの照合・統合処理の試行:人手で作成したルールに基づくルールベース処理による方式や、機械学習を適用した方式など、複数の照合・統合方式の組み合わせを試行し、性能評価を行う。教師あり機械学習の適用を図るため、学習・評価用データ(正解データ)の整備を図りつつ、効率的な正解データの整備法について検討する。機械学習の適用においては、書誌データが表す対象資料がいずれの著作に属するかを予測させる方式と、書誌データの組み合わせが同一著作を表しているかを予測させる方式などを、有効に組み合わせて適用を図る。 2. 有効な典拠作業支援システムの構築に向けた研究成果の統合:当該補助金による研究計画の最終年度に当たり、これまでに得られた個別の成果を統合し、最終目的である図書館目録における有効な著作典拠コントロール作業支援システムとするための方策を検討し、残された課題等を整理する。
|