| Project/Area Number |
24K21055
|
| Research Category |
Grant-in-Aid for Early-Career Scientists
|
| Allocation Type | Multi-year Fund |
| Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
| Research Institution | Osaka University |
Principal Investigator |
甲斐 尚人 大阪大学, D3センター, 准教授 (90940148)
|
| Project Period (FY) |
2024-04-01 – 2027-03-31
|
| Project Status |
Granted (Fiscal Year 2024)
|
| Budget Amount *help |
¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Fiscal Year 2026: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2025: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
| Keywords | 研究データ / データ論文 / メタデータ / キーワード抽出 / 自然言語処理 / 研究データ管理 / 研究データ公開 / 研究データ利活用 |
| Outline of Research at the Start |
本研究では、研究データを公開するプロセスにおいて、抄録や備考などの比較的自由に記述可能なメタデータを用いて、通常の研究成果報告では記載されない研究データの価値を表現する記述手法に焦点を当てる。このような価値の表現は、研究データの異分野での利活用を促す重要なメタデータであると考えられる。本研究では、それらの研究データの価値を適切に表現するための記述手法を明らかにすることを目指す。具体的な分析の例として、データジャーナルに収載されたデータ論文の記述(抄録や本文)に着目し、その被引用数に影響を及ぼす因子の特定や関連する学術論文内での表現の違いに着目し、研究データの価値を表す記述手法を明らかにする。
|
| Outline of Annual Research Achievements |
本研究では、研究データの価値をより的確に表現するためのキーワード抽出手法を提案することを目的とし、データに関する詳細な記述を行うデータ論文(a)と、従来型の学術論文(b)との比較分析を実施した。さらに、データ論文(a)を引用した複数の学術論文(c)を対象に分析を加え、研究データの実際の利活用においてどのような語が用いられているかを明らかにした。 具体的には、同一の研究者が執筆したデータ論文(a)と学術論文(b)を比較対象とし、内容的に関連性を持ちながらも記述の焦点が異なる2種類の文書から、それぞれの特徴的な語彙を抽出した。加えて、データ論文(a)を引用した複数の学術論文(c)を収集し、データ論文が引用される際に、どのような語が頻繁に使用されているのかを自然言語処理技術(TF-IDF)により分析した。 その結果、データ論文(a)に特有の語として、専門的用語が高いTF-IDF値を示した。これらは、従来の学術論文(b)ではあまり見られない語であり、これらの語の多くはデータ論文(a)のタイトルや要旨には記載されていなかったが、引用論文(c)の本文中では繰り返し登場していた。すなわち、実際にデータを再利用した研究では、これらの語がデータの有用性を示す鍵として機能している可能性がある。 これにより、データ(論文)におけるキーワード設定が、当該データの検索性、再利用性に寄与する可能性が示唆された。以上の結果から、データ論文のメタデータ設計において、実際の利用文脈に基づいたキーワード選定が重要であることを明らかにした。単にデータの概要を記述するのではなく、再利用時に有効とされる語をキーワードとして取り入れることで、論文の発見性と引用数の向上が期待される。本研究の成果は、研究データの公開やメタデータ整備の実務において具体的な指針を与えるものである。
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の研究計画において予定していた引用論文の追加分析については、分析対象とする論文群の選定作業において、対象データの網羅性と質を担保するために慎重な検討を重ねた結果、想定以上に時間を要している。当該分析は後期に実施を繰り越すこととした。 また、TF-IDFを用いた既存分析に加えて、Word2VecやBERTといった分散表現モデルを用いた比較分析の準備についても、必要な前処理や実験環境の構築にやや遅れが生じている。しかしながら、これらの手法に関する検討は継続的に行われており、後期において本格的に着手する計画である。 一方で、初期の成果については国際会議(EIDWT2025)にて発表を終えている点からも、研究体制は十分に維持されている。これまでに蓄積したデータや分析経験を活かし、今後の研究進展に向けた準備は着実に進んでいる。以上を踏まえると、計画の一部に若干の遅れは見られるものの、全体としては研究はおおむね順調に進行している。
|
| Strategy for Future Research Activity |
次年度以降は、語彙ベクトルによる意味的類似性評価(Word2Vec・BERTなど)を導入し、TF-IDFによる表層的な頻度分析との比較を行う。また、画像データや構造化データにおけるメタデータ設計への応用可能性を探る。さらに、研究成果をデータ管理実務に還元するため、教育プログラムへの展開や、国内外の研究データ公開ポリシーとの整合性も検討する。
|