研究課題/領域番号 |
21H03773
|
配分区分 | 補助金 |
研究機関 | 名古屋大学 |
研究代表者 |
松原 茂樹 名古屋大学, 情報連携推進本部, 教授 (20303589)
|
研究分担者 |
加藤 芳秀 名古屋大学, 情報連携推進本部, 准教授 (20362220)
青木 学聡 名古屋大学, 情報連携推進本部, 教授 (90402974)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | オープンサイエンス / データリポジトリ / テキスト分類 / 研究データ / メタデータ / 引用文脈 |
研究実績の概要 |
オープンサイエンス推進の方策として,研究データリポジトリの整備が挙げられる。本研究では、論文テキストを用いた研究データの登録とメタデータの生成の実現性とその有用性を示すことを目的とする。初年度である今年度は、この研究を通して使用する論文データを整備するとともに、(1)研究データ検索のための学術論文の引用文脈の活用、及び、(2)分散表現に基づくURL引用の分類、の項目の研究を推進した。 (1)「研究データの検索において論文上の引用文脈を利用することは有用である」という仮説を設定し,それを実験に検証することを試みた。まず,既存のメタデータにおける研究データに関する説明と論文の引用文脈について、その重複度を調査した。調査結果から、引用文脈を利用することで、効果のある拡充を行えることがわかった。次に、言語資源メタデータリポジトリであるLREMapから収集した用途情報を用いて検索実験を行った。引用文脈を用いた拡充により、発見できる研究データ数が増加し、研究データの検索における引用文脈の有用性を確認することができた。 (2)学術論文において研究成果物を参照するURLを自動分類する方法を試作し、その分類性能を実験的に検証した。この方法では、URLが研究成果物であるか否かを判別し、判別したURLを「ツール」と「データ」に分類する。 具体的には、URLの各構成要素を単語とみなし、各構成要素の分散表現を合成関数によって合成することで、分類器の入力素性を生成する。URLのような人工的な文字列の意味を計算する点に特徴がある。実験では、分類性能の観点から数種類の評価関数を設け、国際会議論文に出現するURL引用データを用いた。実験の結果は、本研究で開発した手法による分類可能性を示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
プロジェクトの初年度は、本研究全体を支える研究資源の整備を計画していたのに対し、国際会議論文を用いて論文テキストデータを作成するに至っている。また、論文テキストに出現するURLに対して、そのタイプ(データ、ツール)のラベル付けを行った。次年度以降に利用できるデータとして整備するとともに、それを利用した成果を学会で公表するに至っており、本課題はおおむね順調に進展しているといえる。
|
今後の研究の推進方策 |
次年度以降は、今年度整備した論文テキストデータを用いて研究を推進する。なお、作成した論文データについては、今後も質的・量的の両側面から拡大を進める。特に、データに付与するラベルの高度化を進めるとともに、その分類方式の開発を推進する。研究推進上の問題は生じておらず、当初の研究計画を大きく変更する必要はない。
|