• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

研究データリポジトリの構築に向けた学術論文テキストの解析と利用

研究課題

研究課題/領域番号 23K21844
補助金の研究課題番号 21H03773 (2021-2023)
研究種目

基盤研究(B)

配分区分基金 (2024)
補助金 (2021-2023)
応募区分一般
審査区分 小区分90020:図書館情報学および人文社会情報学関連
研究機関名古屋大学

研究代表者

松原 茂樹  名古屋大学, 情報基盤センター, 教授 (20303589)

研究分担者 加藤 芳秀  名古屋大学, 情報連携推進本部, 准教授 (20362220)
青木 学聡  名古屋大学, 情報連携推進本部, 教授 (90402974)
研究期間 (年度) 2021-04-01 – 2025-03-31
研究課題ステータス 交付 (2024年度)
配分額 *注記
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2024年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2023年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2022年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2021年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
キーワードオープンサイエンス / 研究データ管理 / テキスト解析 / デジタルライブラリ / リポジトリ / データリポジトリ / テキスト分類 / データ引用 / メタデータ / 引用文脈 / 情報抽出 / 研究データ / 機関リポジトリ
研究開始時の研究の概要

オープンサイエンスの促進のために、研究データリポジトリを整備し提供することは有用である。本研究では、データリポジトリの効率的な構築に向けた論文テキストの利用可能性を検証する。論文には、研究データの作成や利用に関する記述が含まれるため、引用文脈を適切に抽出できれば研究データのメタデータ情報として活用できる。URL引用に着目し、引用されたWeb資源を分類・整理する。大規模論文データを用いてデータリポジトリを試作し提案方式を評価する。

研究実績の概要

オープンサイエンスの促進に向けて、研究データリポジトリ構築を自動化することは効果的である。本研究では、論文テキストからの情報獲得による研究データ登録とそのメタデータ生成の実現性を、実験的に検証することを目的とする。3年目は、昨年度までに開発した技術に基づき、(1)文献リストにおける研究データ引用の検出、及び、(2)論文における研究データ引用の要否判定、に関する研究を推進した。
(1)論文の引用文献には研究データを参照するものが含まれることがあり、その情報をリポジトリ拡充に利用できる可能性がある。本研究では、論文の参考文献リストから、研究データとして引用されている文献を検出する手法を開発した。当該文献を検出するために、それが引用されている箇所の周辺テキスト(以下、引用文脈)の情報が利用できる。本手法では、文献の引用文脈を特定し、それを用いて研究データを検出するモデルを学習する。自然言語処理分野の国際会議論文を使用した実験により、手法の有効性を確認した。また、広範な分野の論文における研究データ引用の検出可能性を確認した。
(2)学術論文では、文献以外にもデータセットやプログラムなど、様々な研究資源が引用され、それらはURLによって引用されることが多い。論文の読者による研究の理解や再現、研究資源へのアクセスを支援するためには、データセットやプログラム等も適切に引用されることが望ましい。本研究では、文献タグによる引用に加えて、URL引用も含めた引用要否判定タスクを新たに設定した。このタスク設定に従い、自然言語処理分野の国際会議論文を用いたデータセットを作成し、従来の引用要否判定の手法をベースラインとし、URL引用を含めた引用要否の判定性能を検証した。その結果、URL引用の引用要否判定では、前後の文脈が重要であることが明らかとなった。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

プロジェクトの三年目は、学術論文の参考文献における研究データの識別、及び、論文テキストからのメタデータ要素の獲得に関する研究開発を計画していたのに対し、文献リストにおける研究データ引用の検出、ならびに、論文における研究データ引用の要否判定に関して取り組み、いくつかの知見を得ることができた。研究成果については言語処理関連の学会で公表するほか、難関国際会議で論文が採録されるに至っており、本課題はおおむね順調に進展しているといえる。

今後の研究の推進方策

次年度は最終年度として、本研究で整備した論文テキストデータを引き続き使用する。データの質的拡大についてはアノテーション作業などを通して必要に応じて継続する。引き続き、研究データのメタデータ要素の抽出技術に取り組むとともに、リポジトリの実現性の検証に取り組む予定である。研究推進上の問題は生じておらず、当初の研究計画を大きく変更する必要はない。

報告書

(3件)
  • 2023 実績報告書
  • 2022 実績報告書
  • 2021 実績報告書
  • 研究成果

    (13件)

すべて 2024 2023 2022 2021

すべて 学会発表 (13件) (うち国際学会 5件)

  • [学会発表] 論文の文献リストにおける研究データ引用の検出2024

    • 著者名/発表者名
      生駒流季, 松原茂樹
    • 学会等名
      言語処理学会第30回年次大会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 論文におけるURLによる引用を考慮した引用要否判定2024

    • 著者名/発表者名
      和田和浩, 角掛正弥, 松原茂樹
    • 学会等名
      言語処理学会第30回年次大会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] Paper Recommendation Using Citation Contexts in Scholarly Documents2023

    • 著者名/発表者名
      Tomoki Ikoma, Shigeki Matsubara
    • 学会等名
      The 37th Pacific Asia Conference on Language, Information and Computation (PACLIC 37)
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] 学術論文におけるURLによる引用の動向とその利用可能性2023

    • 著者名/発表者名
      和田 和浩, 松原 茂樹
    • 学会等名
      情報処理学会第63回インターネットと運用技術研究会(IOT)
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 文法的・意味的制約に基づくクエリ指向型文圧縮2023

    • 著者名/発表者名
      林 律希, 加藤芳秀, 松原茂樹
    • 学会等名
      人工知能学会第37回全国大会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 中間タスクの挿入による学術論文におけるURL引用の分類2023

    • 著者名/発表者名
      和田和浩,松原茂樹
    • 学会等名
      言語処理学会第29回年次大会
    • 関連する報告書
      2022 実績報告書
  • [学会発表] Extracting Information about Research Resources from Scholarly Papers2022

    • 著者名/発表者名
      Ayahito Saji, Shigeki Matsubara
    • 学会等名
      The 24th International Conference on Asia-Pacific Digital Libraries
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Classification of URL Citations in Scholarly Papers for Promoting Utilization of Research Artifacts2022

    • 著者名/発表者名
      Masaya Tsunokake, Shigeki Matsubara
    • 学会等名
      The 1st Workshop on Information Extraction from Scientific Publications at AACL-IJCNLP 2022
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] 研究資源のメタデータに関する情報を学術論文から抽出する試み2022

    • 著者名/発表者名
      佐治礼仁,松原茂樹
    • 学会等名
      情報処理学会第6回オープンサイエンスと研究データマネジメント研究会
    • 関連する報告書
      2022 実績報告書
  • [学会発表] 文法性判定に基づくクエリ指向の文圧縮2022

    • 著者名/発表者名
      林律希, 加藤芳秀, 松原茂樹
    • 学会等名
      第21回情報科学技術フォーラム
    • 関連する報告書
      2022 実績報告書
  • [学会発表] 研究データ利活用の促進に向けた論文におけるURLによる引用の分類2022

    • 著者名/発表者名
      角掛正弥,松原茂樹
    • 学会等名
      言語処理学会第27回年次大会論文集
    • 関連する報告書
      2021 実績報告書
  • [学会発表] Using Citation Contexts in Scholarly Papers for Research Data Search2021

    • 著者名/発表者名
      Masaya Tsunokake, Shigeki Matsubara
    • 学会等名
      The 16th International Joint Symposium on Artificial Intelligence and Natural Language Processing
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] Classification of URLs Citing Research Artifacts in Scholarly Documents based on Distributed Representations2021

    • 著者名/発表者名
      Masaya Tsunokake, Shigeki Matsubara
    • 学会等名
      The 2nd Workshop on Extraction and Evaluation of Knowledge Entities from Scientific Documents
    • 関連する報告書
      2021 実績報告書
    • 国際学会

URL: 

公開日: 2021-04-28   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi