2020 Fiscal Year Research-status Report
数の概念を用いない、多様体学習に基づく研究動向解析手法の実証
Project/Area Number |
20K20140
|
Research Institution | National Institute of Science and Technology Policy |
Principal Investigator |
黒木 優太郎 文部科学省科学技術・学術政策研究所, 科学技術予測・政策基盤調査研究センター, 研究官 (80744341)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 科学技術予測 / フォーサイト / ホライゾンスキャニング |
Outline of Annual Research Achievements |
ビブリオメトリクスを用いた研究分野のトレンドやホットトピックの抽出において、現在は、被引用数や共引用数、論文数を用いた手法が一般的である。しかしこれらの手法は、公開媒体(例えば論文データベース)の制約や、言語の壁が大きい。また、「数」を評価指標に用いることによって、そもそもの研究者コミュニティの規模に大きくバイアスがかかった結果を生み、「小さくても重要なトレンド」は埋もれてしまう傾向にある。 これらの問題に対しては、TF-IDFのように、数値補正する手法が一般的である。しかし本研究では、そもそも被引用数も論文数も使わず、言葉の文脈のみによってトレンドとホットトピックを抽出する手法を確立することを試みる。本手法は数を用いないため、研究規模は全く関係ない。媒体にも縛られないため、データ型の壁も存在しない。 今年度は、特に英語論文について、「genome」をキーワードにしたscopus英語論文の解析によって大まかなトレンド及びホットトピックの抽出を行った。加えて、各個人の研究の特徴の抽出についても併せて試みた。具体的には、ノーベル賞受賞者46名の全scopus掲載英語論文をそれぞれ抽出し、本手法によって得られた研究の特徴語と受賞理由を照合し、その一致率を調べた。結果、ゲノム科学をキーワードにした場合のトレンドには、「CRISPR/cas」や「Zika」等、実際にトレンドとして認識されているキーワードが得られた。ノーベル賞受賞者の特徴分析については、本分析によって得られたキーワードTOP10とノーベル賞受賞理由との単語一致率は、分野全体(医学・化学・物理学・経済学)の平均が80%以上であった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定通り、研究のトレンドに加え、個人の学術研究の特徴抽出についても本分析によって一定の成果が得られたと考えられる。今年度は試行的にノーベル賞受賞者を対象に、得られたキーワードと受賞理由の単語を機械的に突合し、一定の精度が確認された。対象とするデータセットの拡大や、衆目評価等による評価等、さらなる解析を要するものの、全体としてはおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
今年度はノーベル賞受賞者46名を対象にした試行であったが、今後は対象を一般の研究者100名以上へ拡大し、それぞれ本人による衆目評価を得ることを計画している。また、英語だけでなく日本語への対応も試み、さらには、既存の手法(TF-IDF棟)との性能比較も衆目評価等の方法によって実施する。
|
Causes of Carryover |
新型コロナの感染拡大によって、予定していた学会が延期・中止となったことに伴い、旅費は発生せず、必要に応じてオンライン等によって対応した。英語翻訳を含む謝金等の必要性も減少したため、これらの費用については集中的・効率的に実施するため、次年度に繰り越した。
|