2019 年度実施状況報告書

エージェントと著作等に対する典拠コントロール支援用統合型典拠データベースの構築

研究課題

研究課題/領域番号	17K00452
研究機関	慶應義塾大学
研究代表者	谷口祥一慶應義塾大学, 文学部(三田), 教授 (50207180)
研究期間 (年度)	2017-04-01 – 2021-03-31
キーワード	典拠データ / 典拠コントロール / エージェント / 著作 / 表現形 / 情報組織化
研究実績の概要	図書館目録における典拠コントロールの一層の充実をめざして、(a)個人や団体等というエージェントに対する国内の典拠データを仮想的に統合し、より包括的な典拠データとすること、(b)既存の書誌データから著作および表現形に関する事項を抽出し、包括的な著作・表現形典拠データを形成すること、および(c)統合型の典拠データを適切に表現し管理できるメタデータスキーマを策定することを研究目的としている。今年度は以下の研究を遂行した。 1. エージェント典拠データの照合と統合：VIAFによる典拠レコードマッピングの妥当性検証を目的に、日本名の典拠形アクセスポイントをもつ個人のレコードを対象に、効率的な検証方法の提案とその試行を行った。国立国会図書館とNACSIS-CATの典拠および書誌レコードを用いて、誤同定と同定漏れの可能性が高い部分を機械的に特定し、特定された部分のみ人手により検証を行う方法を試行した。 2. 著作同定への機械学習の適用：書誌レコードに対する効率的かつ網羅的な著作同定を意図して、難度が高いとされる日本古典著作を事例に機械学習の適用を試みた。(a)人手により判定された書誌レコード群からタイトルと読み、責任表示と著者標目など著作判定に関わる項目から値を抽出し特徴量とし、個別の著作を予測させる多クラス分類問題と実施した。複数の機械学習モデルと特徴量選択方式を適用し、その有効性と限界を検証した。次に、(b)2つのレコードが同一著作を表すかを予測する2クラス分類問題として実験を行い、その性能値を確認した。 3. メタデータスキーマとその基盤となる概念モデルの検討：適切な典拠データ用スキーマの策定に向けて、特にRDAの適用を想定してメタデータスキーマを検討した。現在公開されているRDA Registryの登録語彙（RDA語彙）を対象に、その理解のための枠組みの提示等を検討した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由 3つの研究目的それぞれに対して、下記の成果を得たが、その最終的な成果発表において遅れていると判断した。 1. エージェント典拠データの照合と統合：2機関の典拠および書誌レコードを用いて、誤同定と同定漏れの可能性が高い部分を機械的に特定し、その後人手による判定に委ねる検証手順を試行した。その結果、誤同定の可能性が高い部分として、単一VIAFクラスタ内で、①同一機関作成の典拠レコードが複数属するもの、②両機関の典拠レコードの名称や参照形など、いずれも一致しないものを機械的に特定し、それらに誤同定が含まれていることを確認した。他方、同定漏れの可能性が高い部分は、両者の名称が一致するが、異なるVIAFクラスタとされているものについて、リンクする書誌レコード同士の機械的照合を実行し合致するものの発見を試みた。これら成果は学会発表において公表したが、雑誌論文としての公表作業は遅れている。 2. 著作同定への機械学習の適用：国立国会図書館作成の書誌レコードに対して、日本古典著作に該当するか、またいずれの古典著作に該当するかを教師あり機械学習により判定を試みた。実験1は、人手により判定された書誌レコード群からタイトル、責任表示などの7項目から値を抽出し特徴量とし、個別の著作を予測させる多クラス分類問題とした（データ数22万件）。複数の機械学習モデルと特徴量選択方式を適用し、その有効性と限界を検証した。実験2は、2つのレコードが同一著作を表すかを予測する2クラス分類問題とし（データ数376万件）、性能値を確認した。これら成果は学会発表において公表するにとどまっている。 3. メタデータスキーマとその基盤となる概念モデルの検討：RDA Registryの登録語彙を対象に検討してきたが、RDA自体が大幅に変更されることになり、そのため検討は完了していない。
今後の研究の推進方策	1. エージェント典拠データの照合と統合：既に得ているVIAFに関わる実験結果による成果をまとめるとともに、さらに補足的な実験を追加し、最終的な成果公表として英語雑誌論文の執筆と投稿を進める。 2. 著作同定への機械学習の適用：既に得られた実験結果等を踏まえ、他の方式との組み合わせなど、追加的・発展的な実験の実施とその結果の取得を目指す。また、成果報告として日本語または英語による雑誌論文の執筆と投稿を進める。 3. メタデータスキーマとその基盤となる概念モデルの検討：適切な典拠データ用スキーマの策定に向けて、引き続きRDA語彙の適用を想定してメタデータスキーマの検討を進める。RDA自体が大幅な変更の途上にあるため、可能な限り変更後のRDAに即したメタデータスキーマを検討する。
次年度使用額が生じた理由	1. エージェント典拠データの照合と統合の一環として、VIAFによる典拠レコードマッピングの妥当性検証を実施した。しかし、その成果公表において英語論文原稿の執筆と校閲を予定していたが、他の研究に移行してしまい、途中段階にある。原稿執筆を再開し、当該原稿の英文校閲費に充てる。 2. 著作同定への機械学習の適用：当初計画していた実験では成果が十分とはいえない部分があり、追加的・発展的な実験の必要性が認識された。それらの実験が完了しておらず、いわば途中段階の成果をもって成果発表を行った。これらの実験を継続するための諸経費、および英語論文を執筆した場合の校閲費に充てる。