Scholarly document analysis for data repository construction
Project/Area Number |
21H03773
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Nagoya University |
Principal Investigator |
松原 茂樹 名古屋大学, 情報連携推進本部, 教授 (20303589)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 芳秀 名古屋大学, 情報連携推進本部, 准教授 (20362220)
青木 学聡 名古屋大学, 情報連携推進本部, 教授 (90402974)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)
Fiscal Year 2023: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2022: ¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2021: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
|
Keywords | オープンサイエンス / 研究データ管理 / テキスト解析 / デジタルライブラリ / リポジトリ / データリポジトリ / 情報抽出 / 研究データ / メタデータ / 引用文脈 / テキスト分類 / 機関リポジトリ |
Outline of Research at the Start |
オープンサイエンスを推進する方策として,研究データリポジトリの整備が挙げられる。本研究では、論文テキストを用いた研究データの検出とメタデータの生成の実現可能性を示すことを目的とする。その方法として、研究データの引用情報を付与した学術論文テキストを整備し、研究データを識別する技術、引用テキストを検出する技術、メタデータ情報の抽出技術の開発に利用する。大規模な論文アーカイブデータを用いた実験により、研究データ検索への貢献を評価する。
|
Outline of Annual Research Achievements |
研究データリポジトリ構築の自動化は、オープンサイエンスの促進に効果的である。本研究では、学術論文データを活用した研究データ登録とそのためのメタデータ生成の実現性とその有用性を示すことを目的とする。二年目にあたる今年度は、昨年度整備した論文テキストデータを用いて、(1)論文におけるURLによる引用の多次元分類、及び、(2)メタデータ情報の論文テキストからの抽出、の項目の研究を推進した。 (1)論文における研究データの引用を識別・解析することは、研究データリポジトリの拡充や研究データの検索・推薦・評価などにつながる。論文におけるURL引用の多くが研究データを参照している。そこで本研究ではそのような引用に対し、参照先リソースが研究で果たす役割、URLで参照するリソースの種類、および、著者が引用した理由に関する分類問題に取り組んだ。提案する手法では従来手法のフレームワークに、節タイトルや脚注の文を入力素性として追加した。データセットを作成し、国際会議論文を用いた分類実験の結果、提案手法の有効性を確認した。 (2)研究データリポジトリの効率的な拡充を目的に、研究資源のメタデータに関する情報を学術論文から抽出する手法を検討した。具体的には、論文テキストに出現するエンティティ及びそれらの間の関係を抽出し、エンティティを節点、関係を有向辺とする知識グラフを獲得する仕組みを開発した。論文データを用いて構築した知識グラフを用いて、既存のメタデータリポジトリにおけるメタデータ及びエントリの拡充可能性を実験的に検証した。実験の結果、既存のメタデータに対する新たな情報の追加可能性、ならびに、研究資源を示すエンティティを識別するニューラルモデルによる研究資源エントリの拡充可能性を確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
プロジェクトの二年目は、初年度に整備した大規模論文テキストデータを用いて、論文テキストに記された引用文から引用文脈を検出する技術を開発すること、及び、論文で記載された研究データをテキスト上で識別するための研究開発を行うことを計画していた。 今年度の推進により現在までに、学術論文における引用文脈を示すテキストを引用文献ごとに抽出する手法の研究開発、ならびに、本文や脚注に出現する研究データを参照するURL引用を識別するとともに、それを役割と目的の観点から分類する方式の研究開発に取り組んだ。その結果、研究データリポジトリの自動構築に向けたいくつかの有用な知見を得ることができた。本研究成果をとりまとめた論文が、自然言語処理、及び、デジタルライブラリに関する国際会議において査読を経て採択されるに至っており、本課題はおおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
次年度以降においても、初年度に整備した大規模論文テキストコーパスを引き続き使用して研究を推進する。ただし、使用するデータの規模的拡張、及び、分野的拡張については必要に応じて継続的に推進する。今後は、今年度の技術的な成果と知見に基づき、研究データに関わるメタデータ要素を生成する技術を中心的に取り組むとともに、学術論文における研究データ引用の実際について、大規模かつ多分野テキストの解析に基づき分析を与える。それらの成果についてデジタルライブラリや自然言語処理に関する著名な国際会議に投稿する方針である。代表研究者と分担研究者間の連携、ならびに、研究協力者との連絡など、本プロジェクト推進上の問題は生じておらず、当初の研究計画を大きく変更する必要はない。
|
Report
(2 results)
Research Products
(8 results)