研究課題/領域番号 |
20K11706
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60030:統計科学関連
|
研究機関 | 滋賀大学 |
研究代表者 |
椎名 洋 滋賀大学, データサイエンス学系, 教授 (80242709)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
2021年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2020年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
|
キーワード | 標本数問題 / リスクの漸近展開 / 情報幾何 / 予測分布 / ダイバージェンス / リスクの漸近分布 / 最尤推定量 / 分布の近似 |
研究開始時の研究の概要 |
大量なデータが様々な分野で収集され、これによる分析の有効性が検証されているところであるが、依然としてデータを集めることに関して、多くのコストがかかる調査・実験も数多く存在する。その場合、どれくらいデータを集めればどの程度の分析精度が確保されるかということが分かれば、調査・実験の大きな指針となる。しかしながら、どのくらいデータを集めればよいかは、実はデータを集め終わるまでよく分からないということが頻繁にある。本研究は、この状況を打破するために、データを生み出すモデルの数学的な分析を行うことで、おおよそこれくらいのデータ数があればよいという指針を与えることを最終的な目標としている。
|
研究成果の概要 |
パラメトリックモデルに真の分布が含まれない場合を想定した。モデルの中で一番真の分布に近い分布(Information Projection)と、最尤推定量をパラメーターに代入して得られる予測分布(Estimative Density)の近さを、カルバックライブラーダイバージェンスを用いて測り、その期待値をリスクにしたとき、そのリスクの漸近的な挙動がどうなるかについて研究した。1)リスクを標本数の二次オーダーまで漸近展開し、2)ダイバージェンスとベイズ誤差率との関係を求めた。その結果を利用して、3)与えられたモデルに必要な標本数について、一定の基準を設けることに成功した。
|
研究成果の学術的意義や社会的意義 |
単純な統計モデルから巨大な深層学習モデルまで、様々な確率モデルが構築されている。その際、モデルのパラメーターを学習させるためには、どれくらいの大きさの標本が必要か(いわゆる、標本数問題)については、はっきりした基準がなかった。本研究では、パラメーターを座標としたモデルの集まりの中で最良の点(Information Projecton)に、学習済みモデル(標本から得られる最尤推定量でパラメーターを置き換えた予測分布、Estimative density)が十分近くなるために、どの程度の大きさの標本が必要かという観点から、標本数問題に一定の答えを出している。この点に、本研究の最大の意義がある。
|