研究課題/領域番号 |
25540013
|
研究種目 |
挑戦的萌芽研究
|
研究機関 | 九州大学 |
研究代表者 |
西井 龍映 九州大学, マス・フォア・インダストリ研究所, 教授 (40127684)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | AIC / BIC / GIC / 決定係数 / KL情報量 / エントロピー |
研究概要 |
回帰分析において, モデルの良し悪しを評価するわかりやすい基準は決定係数である. 決定係数は 0以上1以下の値をとり, またデータのロケーション変換やスケール変換についての不変量ともなっている. そのため異なるデータセットであっても, 決定係数が近ければ目的変数の予測値と実測値の線形性の程度がわかる絶対量となっている. ただ決定係数はモデルが複雑になると単調に大きくなるので, 説明変数のモデル選択には分母分子をそれぞれの自由度で割った自由度調整済みの決定係数が用いられる. 一方情報量基準 AIC や GIC 等は Kullback-Leibler (KL) 情報量に現れる真のモデルのエントロピーを除いた負の期待対数尤度の推定量として導出されている. そのため KL情報量が持っている非負性が失われている. またモデル同士を比較する相対量であり絶対量ではない. そこでKL情報量を基準化し, 絶対評価が可能なモデル評価指標を導出することを目的とする. ここでは, 1) 回帰モデルにおいて, 分散も説明変数でモデル化されているGLMについての一般化決定係数を提案した. 2) 回帰モデルにおいて, 密度推定を用いてKL情報量を推定することにより, 相対KL情報量に基づく評価基準を提案した. 3) 一般の統計モデルにおいて, 最も簡単なモデルと評価したいモデルの対数尤度比の指数関数で評価する基準を提案した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
回帰分析におけるKullback-Leibler 情報量は, 真の密度のエントロピーと期待対数尤度で表せる. 真の密度のエントロピーは知ることができないため, カーネル関数による密度推定を利用することを考察した. またガウシャンカーネルを用いると, KL情報量は正規乱数に基づくシミュレーションで求められることを示した. またいくつかの数値例で KL情報量を求めた. その結果,比較的安定した値が得られることがわかったため, 相対KL情報量は実用的な指標であると考えている. また 回帰モデルにおいて, 決定係数は最も簡単なモデルと評価したいモデルの分散比で与えられている. このことは尤度比の単調関数となっていることを意味する. これより一般の確率モデルの評価で, 尤度比による絶対評価基準が自然に導かれる. 尤度比の対数は罰則項を除いたAICの差であることから, AIC の差に基づく評価基準を提案した. 同様にBICやGICによる評価基準も提案できる. 回帰分析においては, 決定係数, 自由度調整済み決定係数, 相対AIC, 相対BICの間に不等式関係があることを示した. またポアソン回帰において, 実データでこれらの評価基準値を求めた. これにより最も簡単なモデルをどれと選ぶかで, 評価値が大きく変わるため, ベースとなるモデルの選び方について今後考察する必要がある. 以上のことから本研究は予定通りの研究成果を上げていると自己評価する.
|
今後の研究の推進方策 |
1) 密度推定による相対KL情報量に基づく評価基準について, 理論面および数値例についてまとめる. 2) 一般の統計モデルを相対AIC等で評価するとき, ベースとなるモデルの選び方が評価値に大きく影響する. この対策について考察したい. 3) 回帰モデルでは, 目的変数に少数でも異常値があれば標本分散が大きくなり, 結果として決定係数が大きくなってしまう. そのため評価モデルが実際以上に良くなって見える. また変動する分散の場合の一般化決定係数では, 分散が極端に小さい場合があれば, 同様の現象がおきる. 過剰にモデルがよく見えたり, 悪く見えたりすることを合理的に警告することを考えたい. 4) モデル選択確率をシミュレーションで求め, それを絶対評価とする手法を考察する.
|
次年度の研究費の使用計画 |
本研究は個人研究であること, また原有設備で数値計算等の研究を推進できたため, 本研究費を使用する必要がなかった. 研究成果が得られたため, 研究成果発表のための出張を行う. また新たな研究の発展のため, サバティカルを利用して外国に中期に滞在し, 研究者との研究交流を行う.
|