研究課題/領域番号 |
26730022
|
研究機関 | 関西大学 |
研究代表者 |
高井 啓二 関西大学, 商学部, 准教授 (20572019)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 欠測値 / 漸近理論 / 独立性 / EM algorithm |
研究実績の概要 |
本年度は,欠測データのための情報量規準の開発を試みた.完全データの場合には,どのような変数の組合せを使っても一致性のある最尤推定量を得ることができる.一方,欠測データの場合には,変数の組合せによっては一致性のある最尤推定量が得られないことがある.完全データに対する情報量規準であるAICは,どんな変数の組が選択されたとしても一致推定量が得られるという仮定の下で得られている.本研究では,全変数を用いた場合には一致推定量が得られるが,一部の変数のみを用いた場合には一致推定量が得られないという欠測データ特有の状況の下で,情報量規準を構築した.仮に一部の変数を用いたときに一致推定量を得られるとしても,この提案手法の方が良い結果が得られることも示した. 欠測データ解析の応用として,半教師あり判別分析について研究を行った.例えば,健康診断では血液検査の結果が一定水準を超えた人のみを再検査し病気かどうか判断する.従って,血液検査を受けた人数よりも病気かどうか判断された人間は極めて少なくなる.このように判別に使われる変数のデータは十分だが,その結果については一部しか得られないデータを半教師ありデータと呼ぶ.本研究では,半教師ありデータを,欠測データとみなし,欠測データの手法を用いて判別規則を作ることを試みた.昨年得られた理論的な結果について本年度は有限サンプルにおける提案手法の挙動について数値実験を行って調べた結果,有限サンプルでも,我々の提案手法が理論どおりの挙動を示すことが確認された. もう一つの実績として,「欠測データの統計解析」を出版(2016年4月20日出版予定)した.報告者は,欠測データを用いた最尤法による推測方法の理論的な根拠,及びパラメータの推定方法であるEMアルゴリズムについて概説した.更に,欠測データを発生させたメカニズムについてデータを用いて検証する方法について述べた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度の研究は,研究計画にある「無視可能条件」の同値条件の導出,及び「大標本の場合の推定量の漸近分布」の導出に関するものである. 昨年度に引き続き,「無視可能な欠測データメカニズム(以下,MARと略す)」と独立性の関係について研究をしている.昨年までの研究では,MARの同値条件を変数間の独立性によって与えることができることがわかっている.本年度の研究では,色々な研究者により独立に提唱され,MARと同値であるとされてきた条件が,実際に同値であることを証明した.それらの証明が,この研究で得られた同値性を使うことにより非常に簡潔になることが確認できた. 大標本の場合の推定量の漸近分布を導出するための前段階として,EMアルゴリズムについて研究を行った.EMアルゴリズムは,対数尤度関数だけでなく,一般の最尤推定法にも適用できるためである.研究の結果,代表的な分布である正規分布や多項分布に対して,従来とは異なる観点からEMアルゴリズムを導出することができた.また一般の分布に関しても,EMアルゴリズムよりも一般に計算がたやすくできる更新式を与えた.また従来は複雑なセットアップが必要であったEMアルゴリズムによって得られる推定量の漸近的な性質を容易に得ることができた. 大標本の場合の推定量の漸近分布の問題点として,どの変数を使うかという問題がある.変数が多くなればなるほど一致推定はしやすくなる.しかし,一般には一部の変数にしか興味がないが,その一部の変数だけを用いると一致推定ができなくなる.そこで,本研究では,できるだけ多くの変数を使ってパラメータを推定し,そのパラメータの中から興味のある変数のパラメータだけを取り出すという手法を開発した.本方法では,興味のある変数だけで一致推定できたとしても,できるだけ多くの変数を使う方が推定が精確になることを証明した.
|
今後の研究の推進方策 |
今年度は,前年度の研究に引き続いて,欠測データのための情報量規準の開発と,新しい形のEM アルゴリズムの開発を行う. 欠測データの場合には,全変数を用いたときには一致性のある最尤推定ができても,一部の変数を用いたときには一致推定ができなくなるという問題がある.これが,欠測データにおいて変数選択を行う上で問題となる.一般には情報量規準は一致性のある推定量が得られることを前提にして得られている.従って,この問題を解決するためには,どんな変数の部分集合を考えても,一致推定できる方法を考えなければならない.本研究では,そのような観点で情報量規準を開発する.昨年度得られた情報量規準の結果をより発展させていく.情報量規準は,データから構成される推定量を扱うことで生じるバイアスを計算し,バイアスを調整する手法である.欠測データでも同様のバイアスが生じるが,変数の部分集合のモデルのパラメータに大きなモデルから推定される推定量を入れることで,完全データの場合には問題にならなかった(無視できるほど小さかった)バイアスが生じてしまう.このバイアスを理論的に計算することが本年度の目的である.結果は,国内学会で発表するとともに,査読のある国際誌に投稿予定である. 昨年度までに得られたEMアルゴリズムの結果を一般の推定関数の場合にも拡張する.完全データの推定関数においてはガウス=ニュートン法などをもちいた最小二乗推定が行われることがあるが,そのような方法の収束性の議論は大変煩雑である.従って,欠測データに対する拡張では,収束性はより煩雑な議論が必要となることが予想される.そのため,理論的な収束性について議論が難しい場合には,様々なシミュレーションを行うことによって実質的な収束について示す予定である.
|
次年度使用額が生じた理由 |
本年度の予算が計画通り使用できなかった理由は,本を執筆していたためである.本の執筆が計画よりも大幅に遅れたため,論文の執筆が予定通りにいかなかった.そのため,本来予定していた英文校閲にかかる費用,及び予定していた海外出張を実現できなかった.その結果として,計画していた通りには利用できなかった.
|
次年度使用額の使用計画 |
本年度は,主として論文の校閲と,米国での在外研究にともなう費用に使用することを予定している.本年度は,少なくとも3本以上の論文を校閲し,30万円近い出費を予定している.米国での在外研究にともなう費用として,第一には,日本から米国間へ研究資料を送るために使用する.第二には,米国での国内移動と海外出張のために使う.現在,シアトルとスペインなどへの出張を予定しており,合計で70万円の出費を予定している.
|