2020 Fiscal Year Research-status Report
Project/Area Number |
20K11706
|
Research Institution | Shiga University |
Principal Investigator |
椎名 洋 滋賀大学, データサイエンス学部, 教授 (80242709)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 情報幾何 / 標本数問題 / 最尤推定量 / 予測分布 / 分布の近似 |
Outline of Annual Research Achievements |
確率分布のパラメトリックモデルが、真の分布を含むことは通常ではありえないので、モデルは真の分布の近似として考えるのが適当である。この際、統計的推定では、真の分布が何かを正確に知ることよりも、真の分布に一番「近い」モデルの中の分布(最良分布)を探索することが目標となる。この「近さ」を、パラメータ間の距離(二乗誤差)で測るのは、幾何学的に言うとパラメーター変換に関して不変でないので、ダイバージェンスによって図ることが望ましい。2020年度の研究では、以下の点で研究の進展をみた。 1.「近さ」を示す方程式が、真の分布による平均の形で表せるのは、アルファーダイバージェンスのうち、Kullback-Leibler Divergence (K-Lダイバージェンス)のみであり、その方程式の近似解としての最良分布パラメーター推定量は、最尤推定量である。 2.最尤推定量と最良分布の距離をK-Lダイバージェンスで測り、その平均をリスクとして定義した時に、リスクの標本の大きさに関する漸近展開を二次の項まで求めた。 3.二つの分布(最尤推定量によって決まる予測分布と最良分布)の間の、K-Lダイバージェンスの大きさと、ベイズ判別器の誤判別率の関係を求めた。これより、二つの分布の間のダイバージェンスに戻づく近さをいくらに設定すれは、その二つの分布間での誤判別確率がどの程度1/2に近づくかが分かる。 4.2.と3.の結果を組み合わせて、標本の大きさとモデルの複雑さ(パラメーターの次元)がどれくらいの大きさであれば、リスクが所与の値(誤判別確率から決まる)以下になるかという公式を求めた。 以上4つの結果をまとめて論文にする準備を進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
「研究実績の概要」に記入した結果は、当初の目標(標本数問題に関して何らかの新しい知見を得ること)に大きく近づくものである。特に4.は本研究の課題に直結する結果であり、標本数問題に関して、簡単で実用的な公式を与えるものになっている。この進捗状況は、2020年度の予定(文献の収集・基礎的な事実の整理や理解)よりも一歩先に進む結果である。
|
Strategy for Future Research Activity |
今後の主な課題としては、2020年度に得られた理論的な結果の検証と、実際のデータに当てはめる際のアルゴリズム・コードの記述の二つが残っている。特に後者は、大規模データの場合、相当な計算資源を必要とすることになると予想される。また、実データの応用にあたっては、効率性・実効性の観点から、別途理論的な研究が必要になる可能性もあるので、こちらも並行して進める。
|
Causes of Carryover |
本年度の予定では、多くの関連文献を収集し、また研究集会への参加によって、既存の結果の理解・把握をするばずであったが、1)予想外に自己のアイデアが進展し、文献収集の必要度が下がった、2)コロナ禍で本来予定していた集会が中止になり旅費が浮いたため、支出額が当初予定より少なかった。
来年度は、かなり大掛かりのシミュレーション実験、実データへの応用を試みるので、本年度に余った予算とあわせて、計算資源(高速PCの購入、スパコンの有料使用等)への支出を行うことを予定している。
|