研究課題/領域番号 |
20K11706
|
研究機関 | 滋賀大学 |
研究代表者 |
椎名 洋 滋賀大学, データサイエンス学部, 教授 (80242709)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 情報幾何 / 標本数問題 / 最尤推定量 / 予測分布 / 分布の近似 |
研究実績の概要 |
確率分布のパラメトリックモデルが、真の分布を含むことは通常ではありえないので、モデルは真の分布の近似として考えるのが適当である。この際、統計的推定では、真の分布が何かを正確に知ることよりも、真の分布に一番「近い」モデルの中の分布(最良分布)を探索することが目標となる。この「近さ」を、パラメータ間の距離(二乗誤差)で測るのは、幾何学的に言うとパラメーター変換に関して不変でないので、ダイバージェンスによって図ることが望ましい。2020年度の研究では、以下の点で研究の進展をみた。 1.「近さ」を示す方程式が、真の分布による平均の形で表せるのは、アルファーダイバージェンスのうち、Kullback-Leibler Divergence (K-Lダイバージェンス)のみであり、その方程式の近似解としての最良分布パラメーター推定量は、最尤推定量である。 2.最尤推定量と最良分布の距離をK-Lダイバージェンスで測り、その平均をリスクとして定義した時に、リスクの標本の大きさに関する漸近展開を二次の項まで求めた。 3.二つの分布(最尤推定量によって決まる予測分布と最良分布)の間の、K-Lダイバージェンスの大きさと、ベイズ判別器の誤判別率の関係を求めた。これより、二つの分布の間のダイバージェンスに戻づく近さをいくらに設定すれは、その二つの分布間での誤判別確率がどの程度1/2に近づくかが分かる。 4.2.と3.の結果を組み合わせて、標本の大きさとモデルの複雑さ(パラメーターの次元)がどれくらいの大きさであれば、リスクが所与の値(誤判別確率から決まる)以下になるかという公式を求めた。 以上4つの結果をまとめて論文にする準備を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
「研究実績の概要」に記入した結果は、当初の目標(標本数問題に関して何らかの新しい知見を得ること)に大きく近づくものである。特に4.は本研究の課題に直結する結果であり、標本数問題に関して、簡単で実用的な公式を与えるものになっている。この進捗状況は、2020年度の予定(文献の収集・基礎的な事実の整理や理解)よりも一歩先に進む結果である。
|
今後の研究の推進方策 |
今後の主な課題としては、2020年度に得られた理論的な結果の検証と、実際のデータに当てはめる際のアルゴリズム・コードの記述の二つが残っている。特に後者は、大規模データの場合、相当な計算資源を必要とすることになると予想される。また、実データの応用にあたっては、効率性・実効性の観点から、別途理論的な研究が必要になる可能性もあるので、こちらも並行して進める。
|
次年度使用額が生じた理由 |
本年度の予定では、多くの関連文献を収集し、また研究集会への参加によって、既存の結果の理解・把握をするばずであったが、1)予想外に自己のアイデアが進展し、文献収集の必要度が下がった、2)コロナ禍で本来予定していた集会が中止になり旅費が浮いたため、支出額が当初予定より少なかった。
来年度は、かなり大掛かりのシミュレーション実験、実データへの応用を試みるので、本年度に余った予算とあわせて、計算資源(高速PCの購入、スパコンの有料使用等)への支出を行うことを予定している。
|