研究課題/領域番号 |
25540013
|
研究機関 | 九州大学 |
研究代表者 |
西井 龍映 九州大学, マス・フォア・インダストリ研究所, 教授 (40127684)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | モデル選択 / 決定係数 / AIC / BIC / 回帰モデル |
研究実績の概要 |
回帰分析においてモデルの良し悪しを評価する代表的な基準は決定係数である. 決定係数は規準化された量であるため,異なるデータセットであっても目的変数の実測値と予測値との近さがわかる絶対量となっている. ただモデルが大きくなると決定係数も単調に大きくなる性質があるので変数選択には使えない. そこで説明変数のモデル選択には自由度調整済みの決定係数が用いられる. (なお漸近的には AIC と同等なモデル選択基準となる.) 一方 AIC, GIC 等は Kullback-Leibler (KL) 情報量に現れる項の1つである負の期待対数尤度の推定量である. そのため KL 情報量が持っている非負性が失われている. またモデル同士を比較する相対量であり絶対量ではない. そこで KL 情報量を基準化し, 絶対評価が可能なモデル評価指標を導出することを目的とする. 平均ゼロで等分散の正規分布に独立に従う誤差を持つ線形回帰モデルを考える. 決定係数は回帰式が定数だけという最もシンプルなモデルと,説明変数を用いたモデルそれぞれの推定分散の比の関数で与えられる. この場合の両モデルの AIC も推定分散の関数とペナルティーとして定義される. そこでペナルティーをゼロとした場合は決定係数と一致するように両モデルの AIC の差の関数としてAICに基づく決定係数を定義した. これは 0 以上 1 以下の値をとり, AICと同値のモデル選択の能力を持つ. また同様に BIC に基づく決定係数も提案した. これらは回帰モデルの枠組みでの提案ではあるが, 最も簡単なモデルが想定できる場合には, 一般の確率分布に対して利用可能なモデル評価基準となる. また分散不均一の場合の回帰モデルの平均に対する評価基準も提案した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
. 平均ゼロで等分散の正規分布に独立に従う誤差を持つ線形回帰モデルを考える. 決定係数は回帰式が定数だけという「最もシンプルなモデル」と, 説明変数を用いたモデルそれぞれの推定分散の比の関数で与えられる. この場合の両モデルの AIC も推定分散の関数とペナルティーとして定義される. そこでペナルティーをゼロとした場合は決定係数と一致するように両モデルの AIC の差の関数により 「AIC に基づく決定係数」 を定義した.これは決定係数の自然な拡張であり, 同時に未知パラメータ数によるペナルティーも含んでいる. 提案した基準の特徴は以下の通りである. 1) 0 以上 1 以下の値をとる. 2) 0 となるときは 最も簡単なモデルと一致するときに限る. 3) 1 に近いほど良いモデルを意味する. 4) AIC と同値のモデル選択基準となっている. なお誤差分散が共通の回帰モデルにおいては, 標本分散が最も簡単なモデルの評価基準と考えることは自然である. さらに BIC や GIC に基づく決定係数を同様に考えることができる. なお次の不等式が成立することがわかる. 「BIC に基づく決定係数」 < 「AICに基づく決定係数」 < 自由度調整済み決定係数 < 決定係数 一般の確率モデルであっても,「最もシンプルなモデル」を適切に定義できる場合は, 提案した決定係数は AIC と同値な基準化されたモデル選択基準となる. 特に一般化線形モデルでは, 説明変数を用いないモデルを最もシンプルなモデルと定義できる. ただしシンプルなモデルを AIC の意味で改良できないモデルでは評価値が負となる. この場合はゼロと定義する. 以上のように回帰モデルや一般化線形モデルの場合について,情報量基準に基づく決定係数を定義し, ロジスティック回帰の数値例をすでに発表した. そのため研究は順調に進展していると判断した.
|
今後の研究の推進方策 |
(1) 決定係数は共通な分散の回帰モデルにおける平均構造を評価していると考えられる. そこで分散が不均一の場合の決定係数を定義する.
(2) 一般化線形モデルにおいて, 説明変数を用いないモデルを「最もシンプルなモデル」と定義することは自然である.ただシンプルなモデルがすでに分布をうまく近似できている場合は, 説明変数を用いてもモデルの改良は小さい. そのため 「AIC に基づく決定係数」 はゼロに近い小さい値となり, モデルの評価値としては変動が小さい. そこで離散分布の場合は「最もシンプルなモデル」の別の定義がありうる. 数値例でその評価値の動きを検証したい. 連続型分布でも「最もシンプルなモデル」の定義について考察する.
(3) KL 推定量そのものの推定についても考察する.
|
次年度使用額が生じた理由 |
今年度(H26)のサバティカル期間中にH25年度の繰越額と合わせてトレント大学およびジェノア大学に滞在する予定だった. 実際にはジェノア大学での滞在目的が本研究課題とは異なったため, 繰越額の約半額を次年度に繰り越すことになった.
|
次年度使用額の使用計画 |
今年度滞在したトレント大学をH27年9月に中期滞在し, 研究を進めるために使用する. また国内旅費や物品購入にも使用する.
|