• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

標本数問題に関する情報幾何学的アプローチ

研究課題

研究課題/領域番号 20K11706
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分60030:統計科学関連
研究機関滋賀大学

研究代表者

椎名 洋  滋賀大学, データサイエンス学系, 教授 (80242709)

研究期間 (年度) 2020-04-01 – 2023-03-31
研究課題ステータス 完了 (2022年度)
配分額 *注記
1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
2021年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2020年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
キーワード標本数問題 / リスクの漸近展開 / 情報幾何 / 予測分布 / ダイバージェンス / リスクの漸近分布 / 最尤推定量 / 分布の近似
研究開始時の研究の概要

大量なデータが様々な分野で収集され、これによる分析の有効性が検証されているところであるが、依然としてデータを集めることに関して、多くのコストがかかる調査・実験も数多く存在する。その場合、どれくらいデータを集めればどの程度の分析精度が確保されるかということが分かれば、調査・実験の大きな指針となる。しかしながら、どのくらいデータを集めればよいかは、実はデータを集め終わるまでよく分からないということが頻繁にある。本研究は、この状況を打破するために、データを生み出すモデルの数学的な分析を行うことで、おおよそこれくらいのデータ数があればよいという指針を与えることを最終的な目標としている。

研究成果の概要

パラメトリックモデルに真の分布が含まれない場合を想定した。モデルの中で一番真の分布に近い分布(Information Projection)と、最尤推定量をパラメーターに代入して得られる予測分布(Estimative Density)の近さを、カルバックライブラーダイバージェンスを用いて測り、その期待値をリスクにしたとき、そのリスクの漸近的な挙動がどうなるかについて研究した。1)リスクを標本数の二次オーダーまで漸近展開し、2)ダイバージェンスとベイズ誤差率との関係を求めた。その結果を利用して、3)与えられたモデルに必要な標本数について、一定の基準を設けることに成功した。

研究成果の学術的意義や社会的意義

単純な統計モデルから巨大な深層学習モデルまで、様々な確率モデルが構築されている。その際、モデルのパラメーターを学習させるためには、どれくらいの大きさの標本が必要か(いわゆる、標本数問題)については、はっきりした基準がなかった。本研究では、パラメーターを座標としたモデルの集まりの中で最良の点(Information Projecton)に、学習済みモデル(標本から得られる最尤推定量でパラメーターを置き換えた予測分布、Estimative density)が十分近くなるために、どの程度の大きさの標本が必要かという観点から、標本数問題に一定の答えを出している。この点に、本研究の最大の意義がある。

報告書

(4件)
  • 2022 実績報告書   研究成果報告書 ( PDF )
  • 2021 実施状況報告書
  • 2020 実施状況報告書
  • 研究成果

    (1件)

すべて 2023

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件)

  • [雑誌論文] Convergence of estimative density: criterion for model complexity and sample size2023

    • 著者名/発表者名
      Yo Sheena
    • 雑誌名

      Statistical Papers

      巻: 64 号: 1 ページ: 117-137

    • DOI

      10.1007/s00362-022-01309-9

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス

URL: 

公開日: 2020-04-28   更新日: 2024-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi