研究課題/領域番号 |
20K11715
|
研究機関 | 中央大学 |
研究代表者 |
中野 純司 中央大学, 国際経営学部, 教授 (60136281)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
キーワード | 学術論文データ / 引用関係グラフ / 大規模グラフ / グラフ生成モデル |
研究実績の概要 |
近年、学術論文の状況を解析するために Web of Science などの論文データベースが利用されている。本研究では、主として論文の引用情報をグラフとして表現し、そのグラフの生成構造に対するモデルを考えることにより、その理論的な裏付けを与え、論文や分野の評価などに利用することを考えている。 まず、統計学分野を取り上げ、年ごとの論文数に対してはロジスティック分布を当てはめ、論文の重要度を被引用数で近似し、論文の種類を示すものとして引用数を考え、その分布は一般逆正規分布をあてはめ、引用確率の経年変化についてはガンマ分布密度関数での近似を利用する確率モデルを考えた。さらに、引用関係グラフにおいては特にエッジの構成する3角形の数が重要であることがわかったので、それを実データにあわせるために、確率的な優先的選択の上に隣接点選択を加えた用いたモデルを提案した。そして実データに合うようにパラメータ推定を行った。そのモデルによるシミュレーションを行い、実グラフとの類似度などを調べた。これらの結果は論文にまとめて投稿し、現在、査読中である。 さらに、海外研究者との共同研究として Web of Science 全分野の論文を対象として、Web ページのサーチエンジン手法として有名なページランクを計算した。解析すべきデータ量が膨大になるため、スーパーコンピュータを用い、新しい計算アルゴリズムを使った。その結果、分野間の違いなどが明らかになってきている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
少なくとも統計分野の論文引用関係グラフにおいて、提案した確率モデルはこれまでに提案されているグラフ生成モデルよりも、それによって発生されたシミュレーションデータにおける実データの再現性がよいという結果を得ている。その理由のひとつは学術論文に固有な特徴をモデルに組み込んだからである。それはモデルが特殊になったことも意味する。ただ、同様の特徴は他のグラフの解析においても利用できるのではないかと考えており、その例として米国の特許文献に対しても実験的に適用し有望な結果を得ている。 また、複数の協力者との研究として、全分野にわたる大規模な学術論文データベースを扱ってみて、ページランクが論文評価でも有効なことを確認できている。
|
今後の研究の推進方策 |
提案した学術論文の引用関係グラフの確率モデルは、実データの特徴をかなりうまく捉えることができたと考えており、しばらくこのモデルの有用性の検証に注力する。米国の特許文献は学術論文と似たデータであるが、予備的な解析からは複数の分野を混在させると(当然のことながら)本モデルは適当ではないことが示されている。そのような場合、本モデルをどのように拡張するかは興味深い話題であり、考察してみたい。 また、全分野にわたる学術論文の引用関係解析は計算が非常に困難であるが、協力者との共同研究により全体的な構造をより明らかにしたい。 COVID-19による社会環境の変化は徐々に常態にもどりつつある。大学の授業は対面形式にもどっているが、学会開催はまだしばらくオンラインが続くかもしれない。オンラインにおける研究環境の整備(計算機、ネットワーク環境の強化)はほぼ十分に終えられたが、今後は学会や研究連絡のための出張ができればより研究が進むと期待している。
|
次年度使用額が生じた理由 |
COVID-19の蔓延のために研究連絡および学会参加のための出張が行えなかった。また、授業や学会のオンライン化のために若干の研究環境強化(計算機などの増強)を行ったが、剰余が生じることとなった。今後は出張旅費として使用することが可能となると考えている。
|