研究課題/領域番号 |
20K19753
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分60030:統計科学関連
|
研究機関 | 九州大学 (2022) 東京大学 (2020-2021) |
研究代表者 |
倉田 澄人 九州大学, マス・フォア・インダストリ研究所, 助教 (10847122)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2020年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
|
キーワード | モデル選択 / 統計学的ダイバージェンス / ロバストネス / スパースモデリング / ベイズ統計学 / 漸近理論 / 地震学 / 食品科学 |
研究開始時の研究の概要 |
例えば突出した能力を持った被験者だったり、例えば個性的な回答であったり、例えば観測機器の一時的な故障であったり、或いは人的ミスであったり―現実世界のデータには、様々な由来を持った「外れ値」が付き纏う。 「外れ値」には明確な定義を与え難く、またその発生を防ぐことは事実上不可能であり、これに対する頑健性を明確化することも容易ではない。本研究では、外れ値が混入していたとしても頑健な解析を為せるような手法について、特に統計的ダイバージェンスに基づいたモデル選択を中心に検討する。 加えて、頑健性を筆頭とした「規準の良さ」についての考察を行い、多様な場面、設定下で、「評価規準を評価する為の規準」を構築する。
|
研究実績の概要 |
現象の全てを事前に知り尽くしていることは基本的に無い以上、絶対的な根拠を持たないモデルを一つ作って運用するのは危険である。そこで複数のモデルを作成し、それを何らかの尺度で比較して相対的に最適な一つを選出するというアプローチが採られる。即ち適切なモデルを作成する為には、適切な選択指標が不可欠となる。モデル選択手法としてはAICやBIC等の情報量規準が有名であり、またLASSOに代表されるスパース正則化の応用も数多くの成果を挙げているが、これらに限らず手法にはそれぞれ特長や弱点があり、特定の一つを常に用いていれば良いというものではない。 選択手法を評価する観点の一つとして、外れ値に対する頑健性(ロバスト性)がある。実世界のデータには突発的な外乱や突出した能力、個性、或いは人的ミスやバグ等の様々な由来を持った「外れ値」が頻繁に現れるが、これは「他の観測値から離れた値を取るデータ」の様な曖昧な定義しか与えられないゆえ外れ値とそうでない値の線引きを行うことが難しく、また外れ値の発生を防ぐことは極めて困難である。モデル選択において、多くの従来手法は外れ値が混入している場合に精度がかなり低下してしまう傾向が指摘されている。これは従来手法の多くが外れ値に敏感な残差平方和や尤度、KL divergenceと呼ばれる統計的ダイバージェンスに依拠していることが原因の一つであると考えられる。 そこで本研究では、推定の頑健性に優れた統計的ダイバージェンスに基づいて擬似尤度や選択規準を拡張することにより、頑健性を持った選択手法を確立することを試みている。Kurata (2023)によるDBBCは情報量規準を拡張した選択規準であり、極端な外れ値にも耐える手法となっている。また最近では、スパース性・選択の一致性・頑健性を同時に達成する手法構築並びにその理論研究を行っている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
外れ値への頑健性とは「外れ値があっても、ない場合に近しい分析結果が得られる」ことと解釈出来るが、問題設定によってその評価方法は異なり、母数推定において「推定値が近しい」こととモデル選択において「選択結果が近しい」ことは必ずしも同値ではない。 本研究では影響関数の考え方を拡張し、混合分布に対する規準値の摂動を評価することで選択の頑健性を測らんとしてきたが、この頑健選択を成す為の条件は基盤となるもの(統計的ダイバージェンス)により大きく異なることが確認され、また数値実験の結果はその条件とよく符合した。加えて、特定ダイバージェンスの優越性が理論・実践両面から確認された。以上の事柄を纏めた論文が、本年度中に国際誌へ採択された(Kurata 2023)。 また、統計手法を地球科学や食品科学といった異分野へ応用する研究も継続的に実施し、多くの発表を行った。具体的には、独自のスパースモデリングによる地震波速度トモグラフィ(地震波が地中を伝播する速度の構造を推定する手法)の改良や、人間が口腔内で味の持続・変化を感じる過程を時系列モデルと一般化線形モデルで表現しモデル選択を行う研究を推進した。 以上を踏まえ、この自己評価とする。
|
今後の研究の推進方策 |
選択における頑健性に加えて、本年度の提案規準DBBCはBIC等が有する選択一致性を併せ持つ規準である。これは標本数が増大する際に、モデル候補の中から正しい(真の確率分布に一致する)モデルを選択する確率が1へ収束するという性質である。この選択一致性に類似したものとして、adaptive LASSO等のスパース推定を応用した変数選択において検討されているオラクル性である。大まかには、大標本時に不要な変数の回帰係数を0に縮小して必要な変数のみを選出出来るという性質であるが、これを確立する為には正則化パラメータの範囲(漸近オーダー)に条件を課す必要がある。正則化パラメータの最適値は未知である為、この選択にはAICやBIC等が多く用いられており、実質的に正しい変数選択を成すには、適切な選択規準を導入する必要が生じる。 なお、多くのスパース推定にはl1ノルムが含まれていることや、変数候補の数がかなり大きい場合を想定する必要があること等、古典的な回帰問題とは問題設定が異なる場合が多く、これらの設定に即した規準の拡張が行われている。そこで、スパース推定の枠組みにおいても、統計的ダイバージェンスに基づいて頑健性を有したパラメータ選択の出来る手法を確立することが、直近の主な目標である。 併せて、選択時の有効性や、リスク関数に対する不偏性、高割合の外れ値混入に対する安定性、欠測を含んだ場合等も並行して検討を進める。規準の提案・考察に際しては、(ア)導出に於ける理論的正当性、(イ)多様な設定に対する実験による裏付け、(ウ)運用可能な場面の広さの提示、(エ)規準の「良さ」の定式化、を開始当初から軸としていたが、次年度もこれに沿った研究を推進する。
|