研究課題/領域番号 |
21H03773
|
配分区分 | 補助金 |
研究機関 | 名古屋大学 |
研究代表者 |
松原 茂樹 名古屋大学, 情報連携推進本部, 教授 (20303589)
|
研究分担者 |
加藤 芳秀 名古屋大学, 情報連携推進本部, 准教授 (20362220)
青木 学聡 名古屋大学, 情報連携推進本部, 教授 (90402974)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | オープンサイエンス / データリポジトリ / 情報抽出 / 研究データ / メタデータ / 引用文脈 |
研究実績の概要 |
研究データリポジトリ構築の自動化は、オープンサイエンスの促進に効果的である。本研究では、学術論文データを活用した研究データ登録とそのためのメタデータ生成の実現性とその有用性を示すことを目的とする。二年目にあたる今年度は、昨年度整備した論文テキストデータを用いて、(1)論文におけるURLによる引用の多次元分類、及び、(2)メタデータ情報の論文テキストからの抽出、の項目の研究を推進した。 (1)論文における研究データの引用を識別・解析することは、研究データリポジトリの拡充や研究データの検索・推薦・評価などにつながる。論文におけるURL引用の多くが研究データを参照している。そこで本研究ではそのような引用に対し、参照先リソースが研究で果たす役割、URLで参照するリソースの種類、および、著者が引用した理由に関する分類問題に取り組んだ。提案する手法では従来手法のフレームワークに、節タイトルや脚注の文を入力素性として追加した。データセットを作成し、国際会議論文を用いた分類実験の結果、提案手法の有効性を確認した。 (2)研究データリポジトリの効率的な拡充を目的に、研究資源のメタデータに関する情報を学術論文から抽出する手法を検討した。具体的には、論文テキストに出現するエンティティ及びそれらの間の関係を抽出し、エンティティを節点、関係を有向辺とする知識グラフを獲得する仕組みを開発した。論文データを用いて構築した知識グラフを用いて、既存のメタデータリポジトリにおけるメタデータ及びエントリの拡充可能性を実験的に検証した。実験の結果、既存のメタデータに対する新たな情報の追加可能性、ならびに、研究資源を示すエンティティを識別するニューラルモデルによる研究資源エントリの拡充可能性を確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
プロジェクトの二年目は、初年度に整備した大規模論文テキストデータを用いて、論文テキストに記された引用文から引用文脈を検出する技術を開発すること、及び、論文で記載された研究データをテキスト上で識別するための研究開発を行うことを計画していた。 今年度の推進により現在までに、学術論文における引用文脈を示すテキストを引用文献ごとに抽出する手法の研究開発、ならびに、本文や脚注に出現する研究データを参照するURL引用を識別するとともに、それを役割と目的の観点から分類する方式の研究開発に取り組んだ。その結果、研究データリポジトリの自動構築に向けたいくつかの有用な知見を得ることができた。本研究成果をとりまとめた論文が、自然言語処理、及び、デジタルライブラリに関する国際会議において査読を経て採択されるに至っており、本課題はおおむね順調に進展しているといえる。
|
今後の研究の推進方策 |
次年度以降においても、初年度に整備した大規模論文テキストコーパスを引き続き使用して研究を推進する。ただし、使用するデータの規模的拡張、及び、分野的拡張については必要に応じて継続的に推進する。今後は、今年度の技術的な成果と知見に基づき、研究データに関わるメタデータ要素を生成する技術を中心的に取り組むとともに、学術論文における研究データ引用の実際について、大規模かつ多分野テキストの解析に基づき分析を与える。それらの成果についてデジタルライブラリや自然言語処理に関する著名な国際会議に投稿する方針である。代表研究者と分担研究者間の連携、ならびに、研究協力者との連絡など、本プロジェクト推進上の問題は生じておらず、当初の研究計画を大きく変更する必要はない。
|