Project/Area Number |
20K11706
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60030:Statistical science-related
|
Research Institution | Shiga University |
Principal Investigator |
Sheena Yo 滋賀大学, データサイエンス学系, 教授 (80242709)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
Fiscal Year 2021: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2020: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
|
Keywords | 標本数問題 / リスクの漸近展開 / 情報幾何 / 予測分布 / ダイバージェンス / リスクの漸近分布 / 最尤推定量 / 分布の近似 |
Outline of Research at the Start |
大量なデータが様々な分野で収集され、これによる分析の有効性が検証されているところであるが、依然としてデータを集めることに関して、多くのコストがかかる調査・実験も数多く存在する。その場合、どれくらいデータを集めればどの程度の分析精度が確保されるかということが分かれば、調査・実験の大きな指針となる。しかしながら、どのくらいデータを集めればよいかは、実はデータを集め終わるまでよく分からないということが頻繁にある。本研究は、この状況を打破するために、データを生み出すモデルの数学的な分析を行うことで、おおよそこれくらいのデータ数があればよいという指針を与えることを最終的な目標としている。
|
Outline of Final Research Achievements |
We assume that the parametric model does not include the true distribution. The proximity of the distribution closest to the true distribution in the model (Information Projection) to the predictive distribution obtained by substituting the maximum likelihood estimator for the parameters (Estimative Density) was measured using the Kullback-Leibler divergence, and its expected value, i.e. risk was used to study the asymptotic behavior. We studied the asymptotic behavior of the risk; 1) the risk was asymptotically expanded to quadratic order of the sample size, and 2) the relationship between divergence and Bayes error rate was obtained. Using the results, 3) we succeeded in establishing certain criteria for the sample size required for a given model.
|
Academic Significance and Societal Importance of the Research Achievements |
単純な統計モデルから巨大な深層学習モデルまで、様々な確率モデルが構築されている。その際、モデルのパラメーターを学習させるためには、どれくらいの大きさの標本が必要か(いわゆる、標本数問題)については、はっきりした基準がなかった。本研究では、パラメーターを座標としたモデルの集まりの中で最良の点(Information Projecton)に、学習済みモデル(標本から得られる最尤推定量でパラメーターを置き換えた予測分布、Estimative density)が十分近くなるために、どの程度の大きさの標本が必要かという観点から、標本数問題に一定の答えを出している。この点に、本研究の最大の意義がある。
|