2022 Fiscal Year Research-status Report
統計的ダイバージェンスに基づくモデル評価規準の開発と規準に対する評価
Project/Area Number |
20K19753
|
Research Institution | Kyushu University |
Principal Investigator |
倉田 澄人 九州大学, マス・フォア・インダストリ研究所, 助教 (10847122)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | モデル選択 / 統計学的ダイバージェンス / ロバストネス / スパースモデリング / ベイズ統計学 / 漸近理論 |
Outline of Annual Research Achievements |
現象の全てを事前に知り尽くしていることは基本的に無い以上、絶対的な根拠を持たないモデルを一つ作って運用するのは危険である。そこで複数のモデルを作成し、それを何らかの尺度で比較して相対的に最適な一つを選出するというアプローチが採られる。即ち適切なモデルを作成する為には、適切な選択指標が不可欠となる。モデル選択手法としてはAICやBIC等の情報量規準が有名であり、またLASSOに代表されるスパース正則化の応用も数多くの成果を挙げているが、これらに限らず手法にはそれぞれ特長や弱点があり、特定の一つを常に用いていれば良いというものではない。 選択手法を評価する観点の一つとして、外れ値に対する頑健性(ロバスト性)がある。実世界のデータには突発的な外乱や突出した能力、個性、或いは人的ミスやバグ等の様々な由来を持った「外れ値」が頻繁に現れるが、これは「他の観測値から離れた値を取るデータ」の様な曖昧な定義しか与えられないゆえ外れ値とそうでない値の線引きを行うことが難しく、また外れ値の発生を防ぐことは極めて困難である。モデル選択において、多くの従来手法は外れ値が混入している場合に精度がかなり低下してしまう傾向が指摘されている。これは従来手法の多くが外れ値に敏感な残差平方和や尤度、KL divergenceと呼ばれる統計的ダイバージェンスに依拠していることが原因の一つであると考えられる。 そこで本研究では、推定の頑健性に優れた統計的ダイバージェンスに基づいて擬似尤度や選択規準を拡張することにより、頑健性を持った選択手法を確立することを試みている。Kurata (2023)によるDBBCは情報量規準を拡張した選択規準であり、極端な外れ値にも耐える手法となっている。また最近では、スパース性・選択の一致性・頑健性を同時に達成する手法構築並びにその理論研究を行っている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
外れ値への頑健性とは「外れ値があっても、ない場合に近しい分析結果が得られる」ことと解釈出来るが、問題設定によってその評価方法は異なり、母数推定において「推定値が近しい」こととモデル選択において「選択結果が近しい」ことは必ずしも同値ではない。 本研究では影響関数の考え方を拡張し、混合分布に対する規準値の摂動を評価することで選択の頑健性を測らんとしてきたが、この頑健選択を成す為の条件は基盤となるもの(統計的ダイバージェンス)により大きく異なることが確認され、また数値実験の結果はその条件とよく符合した。加えて、特定ダイバージェンスの優越性が理論・実践両面から確認された。以上の事柄を纏めた論文が、本年度中に国際誌へ採択された(Kurata 2023)。 また、統計手法を地球科学や食品科学といった異分野へ応用する研究も継続的に実施し、多くの発表を行った。具体的には、独自のスパースモデリングによる地震波速度トモグラフィ(地震波が地中を伝播する速度の構造を推定する手法)の改良や、人間が口腔内で味の持続・変化を感じる過程を時系列モデルと一般化線形モデルで表現しモデル選択を行う研究を推進した。 以上を踏まえ、この自己評価とする。
|
Strategy for Future Research Activity |
選択における頑健性に加えて、本年度の提案規準DBBCはBIC等が有する選択一致性を併せ持つ規準である。これは標本数が増大する際に、モデル候補の中から正しい(真の確率分布に一致する)モデルを選択する確率が1へ収束するという性質である。この選択一致性に類似したものとして、adaptive LASSO等のスパース推定を応用した変数選択において検討されているオラクル性である。大まかには、大標本時に不要な変数の回帰係数を0に縮小して必要な変数のみを選出出来るという性質であるが、これを確立する為には正則化パラメータの範囲(漸近オーダー)に条件を課す必要がある。正則化パラメータの最適値は未知である為、この選択にはAICやBIC等が多く用いられており、実質的に正しい変数選択を成すには、適切な選択規準を導入する必要が生じる。 なお、多くのスパース推定にはl1ノルムが含まれていることや、変数候補の数がかなり大きい場合を想定する必要があること等、古典的な回帰問題とは問題設定が異なる場合が多く、これらの設定に即した規準の拡張が行われている。そこで、スパース推定の枠組みにおいても、統計的ダイバージェンスに基づいて頑健性を有したパラメータ選択の出来る手法を確立することが、直近の主な目標である。 併せて、選択時の有効性や、リスク関数に対する不偏性、高割合の外れ値混入に対する安定性、欠測を含んだ場合等も並行して検討を進める。規準の提案・考察に際しては、(ア)導出に於ける理論的正当性、(イ)多様な設定に対する実験による裏付け、(ウ)運用可能な場面の広さの提示、(エ)規準の「良さ」の定式化、を開始当初から軸としていたが、次年度もこれに沿った研究を推進する。
|
Causes of Carryover |
本年度も学会・研究集会の一部がオンライン開催、又はハイブリッド開催となり、当初想定よりも旅費の運用を抑える格好となった。該当予算を物品費やその他(論文出版費用等)に充てることを図ったが、全額をそちらへ投じる必要はなかった為、次年度の使用額に繰り越すに至った。
|
Research Products
(6 results)