Analysis and statistical modeling of citation graph for scientific articles
Project/Area Number |
20K11715
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60030:Statistical science-related
|
Research Institution | Chuo University |
Principal Investigator |
中野 純司 中央大学, 国際経営学部, 教授 (60136281)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2020: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
|
Keywords | 学術論文データ / 引用関係グラフ / 大規模グラフ / グラフ生成モデル / 共著関係グラフ |
Outline of Research at the Start |
多くのノードがノード間の方向のあるエッジで結ばれる有向グラフは、多種多様な構造を持つデータを表すことのできる汎用的なデータ構造である。それに対する解析は、検索エンジンの中心となったページランクのように、現代人の生活にはもはやかかせない。ところがそのようなグラフの生成構造に対するモデリングの研究はまだ十分ではない。本研究では学術論文引用関係グラフを例に取り、その生成過程の統計モデルを考察する。
|
Outline of Annual Research Achievements |
近年、学術論文の状況を解析するために Web of Science などの論文データベースが利用されている。本研究では、主として論文の情報をグラフとして表現し、そのグラフの生成構造に対するモデルを考えることにより、その理論的な裏付けを与え、論文や分野の評価などに利用することを考えている。 まず、統計学分野を取り上げ、年ごとの論文数に対してはロジスティック分布を当てはめ、論文の重要度を被引用数で近似し、論文の種類を示すものとして引用数を考え、その分布は一般逆正規分布をあてはめ、引用確率の経年変化についてはガンマ分布密度関数での近似を利用する確率モデルを考えた。さらに、引用関係グラフにおいては特にエッジの構成する3角形の数が重要であることがわかったので、それを実データにあわせるために、確率的な優先的選択の上に隣接点選択を加えた用いたモデルを提案した。そして実データに合うようにパラメータ推定を行った。そのモデルによるシミュレーションを行い、実グラフとの類似度などを調べた。これらの結果は論文として掲載された。 さらに、海外研究者との共同研究として Web of Science 全分野の論文を対象として、Web ページのサーチエンジン手法として有名なページランクを計算した。解析すべきデータ量が膨大になるため、新しい計算アルゴリズムを用いた。その結果、分野間の違いなどが明らかになっており、その結果も論文として掲載された。 また、AI分野などの論文の著者の専門分野をいくつかの国毎に調査し、最新分野の研究動向の比較を行なった結果の論文も掲載された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
統計分野の論文引用関係グラフにおいて、提案した確率モデルはこれまでに提案されているグラフ生成モデルよりも、それによって発生されたシミュレーションデータにおける実データの再現性がよいという結果を得ており、論文として掲載された。その理由のひとつは学術論文に固有な特徴をモデルに組み込んだからである。また、複数の協力者との研究として、全分野にわたる大規模な学術論文データベースを扱ってみて、ページランクが論文評価でも有効なことを確認し。その結果も論文として掲載された。さらにAIなどの最新分野における論文の著者の特徴を抽出し、主成分分析などを用いて比較を行った結果も論文とできた。
|
Strategy for Future Research Activity |
提案した学術論文の引用関係グラフの確率モデルは、実データの特徴をかなりうまく捉えることができたと考えており、しばらくこのモデルの有用性の検証や必要な拡張に注力する。米国の特許文献は学術論文と似たデータであるが、その解析から、三角形形成の隣接点選択の確率モデルをより精密にすべきであることがわかったので、その考察を行う。 また、全分野にわたる学術論文の引用関係解析においては海外の研究者と対面で会う機会が回復した。これにより Web of Science 以外の論文データベースを用いる研究を考えている。 また、論文の共著者の解析においては著者の専門分野の特定法を改善したい。具体的にはトピックモデルに似た方法の適用を検討している。
|
Report
(3 results)
Research Products
(15 results)