Scholarly document analysis for data repository construction
Project/Area Number |
23K21844
|
Project/Area Number (Other) |
21H03773 (2021-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2021-2023) |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Nagoya University |
Principal Investigator |
松原 茂樹 名古屋大学, 情報基盤センター, 教授 (20303589)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 芳秀 名古屋大学, 情報連携推進本部, 准教授 (20362220)
青木 学聡 名古屋大学, 情報連携推進本部, 教授 (90402974)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)
Fiscal Year 2024: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2023: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2022: ¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2021: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
|
Keywords | オープンサイエンス / 研究データ管理 / テキスト解析 / デジタルライブラリ / リポジトリ / データリポジトリ / テキスト分類 / データ引用 / メタデータ / 引用文脈 / 情報抽出 / 研究データ / 機関リポジトリ |
Outline of Research at the Start |
オープンサイエンスの促進のために、研究データリポジトリを整備し提供することは有用である。本研究では、データリポジトリの効率的な構築に向けた論文テキストの利用可能性を検証する。論文には、研究データの作成や利用に関する記述が含まれるため、引用文脈を適切に抽出できれば研究データのメタデータ情報として活用できる。URL引用に着目し、引用されたWeb資源を分類・整理する。大規模論文データを用いてデータリポジトリを試作し提案方式を評価する。
|
Outline of Annual Research Achievements |
オープンサイエンスの促進に向けて、研究データリポジトリ構築を自動化することは効果的である。本研究では、論文テキストからの情報獲得による研究データ登録とそのメタデータ生成の実現性を、実験的に検証することを目的とする。3年目は、昨年度までに開発した技術に基づき、(1)文献リストにおける研究データ引用の検出、及び、(2)論文における研究データ引用の要否判定、に関する研究を推進した。 (1)論文の引用文献には研究データを参照するものが含まれることがあり、その情報をリポジトリ拡充に利用できる可能性がある。本研究では、論文の参考文献リストから、研究データとして引用されている文献を検出する手法を開発した。当該文献を検出するために、それが引用されている箇所の周辺テキスト(以下、引用文脈)の情報が利用できる。本手法では、文献の引用文脈を特定し、それを用いて研究データを検出するモデルを学習する。自然言語処理分野の国際会議論文を使用した実験により、手法の有効性を確認した。また、広範な分野の論文における研究データ引用の検出可能性を確認した。 (2)学術論文では、文献以外にもデータセットやプログラムなど、様々な研究資源が引用され、それらはURLによって引用されることが多い。論文の読者による研究の理解や再現、研究資源へのアクセスを支援するためには、データセットやプログラム等も適切に引用されることが望ましい。本研究では、文献タグによる引用に加えて、URL引用も含めた引用要否判定タスクを新たに設定した。このタスク設定に従い、自然言語処理分野の国際会議論文を用いたデータセットを作成し、従来の引用要否判定の手法をベースラインとし、URL引用を含めた引用要否の判定性能を検証した。その結果、URL引用の引用要否判定では、前後の文脈が重要であることが明らかとなった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
プロジェクトの三年目は、学術論文の参考文献における研究データの識別、及び、論文テキストからのメタデータ要素の獲得に関する研究開発を計画していたのに対し、文献リストにおける研究データ引用の検出、ならびに、論文における研究データ引用の要否判定に関して取り組み、いくつかの知見を得ることができた。研究成果については言語処理関連の学会で公表するほか、難関国際会議で論文が採録されるに至っており、本課題はおおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
次年度は最終年度として、本研究で整備した論文テキストデータを引き続き使用する。データの質的拡大についてはアノテーション作業などを通して必要に応じて継続する。引き続き、研究データのメタデータ要素の抽出技術に取り組むとともに、リポジトリの実現性の検証に取り組む予定である。研究推進上の問題は生じておらず、当初の研究計画を大きく変更する必要はない。
|
Report
(3 results)
Research Products
(13 results)