研究課題/領域番号 |
20K19757
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分60030:統計科学関連
|
研究機関 | 広島大学 |
研究代表者 |
伊森 晋平 広島大学, 先進理工系科学研究科(理), 准教授 (80747345)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2020年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 補助変数 / Wasserstein距離 / フレシェ距離 / 貪欲法 / 数理統計学 / ガンマダイバージェンス / 変数選択 / 最適輸送理論 |
研究開始時の研究の概要 |
本研究では補助変数を活用した主要変数の解析を考える.すべての補助変数が有用であるとは限らないため,補助変数と主要変数の関連が解析結果にどのように影響するのかを理論的に明らかにすることが肝要である.そこで,変数間の関係性を最適輸送理論に基づき定式化することで,結果に与える影響のメカニズムを解明していく.さらにその結果を用いて,大規模データにも適用可能で理論的に妥当な補助変数の活用手法の構築を目指す.
|
研究実績の概要 |
本研究ではこれまでに,完全データにおける混合分布のWasserstein距離の評価や,説明変数の数がサンプルサイズよりも大きいような高次元データに対して,理論的・計算量的な観点から有効なアプローチの一つとして知られる貪欲法(greedy algorithm)の研究,さらに正規分布間の距離の尺度であるフレシェ距離に基づく分類問題における補助変数の有用性の研究について取り組んできた. フレシェ距離は二つの母集団分布それぞれの平均ベクトルおよび分散共分散行列を用いて表現されるため,実際の解析ではそれら未知パラメータの推定を行う必要がある.しかしながら,未知パラメータの推定量として単純な不偏推定量を用いた場合,導出したフレシェ距離の推定量の収束レートが高次元データに耐えうるものでは無いという問題点が生じていた.そこで,今年度はこの問題点を解決するために,高次元データに適した未知パラメータの推定量を利用することでフレシェ距離の推定量の収束レートを改良した.この研究内容は国際会議(IMS-APRM2024)で発表している. また,高次元線形回帰モデルにおいて,真のモデルを誤特定している枠組みで,説明変数の従う分布が訓練データとテストデータで異なる共変量シフト下でのorthogonal greedy algorithmについて研究を行い,内容をまとめた論文を執筆中である.この研究内容は,国際会議(2023 ICSDS 及び EcoSta 2023)において,招待講演として発表している.
|