研究課題/領域番号 |
26730022
|
研究機関 | 関西大学 |
研究代表者 |
高井 啓二 関西大学, 商学部, 准教授 (20572019)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 欠測データ / 無視可能な欠測 / 独立性 / グラフィカルモデル |
研究実績の概要 |
本年度は,欠測データ解析における中心的な概念であるランダムな欠測(以下,MARと略す)と独立性の関係を導出し,その利用法についてまとめた.MARは欠測データ解析の基礎的な概念であり,多くの欠測データの解析において欠測の発生機構がMARであると仮定されてきた.ところが,このMARは,しばしば誤って理解されていることが近年の論文で指摘された(Seaman et al. 2013).そこで,本研究ではMARと変数間の独立性の関係を調べた.結果として,単調な欠測のときには一つの欠測指標とその欠測指標が表している変数が他の変数すべてを条件づけたもとで独立になることを示した.また,非単調な欠測の場合には,一般には同値とならないことも示した.また,因果推論の文脈でよく使われる「強く無視可能」であるという条件が,特殊な欠測パターンのときにはMARと同値であることも示した.他にも複数の状況において,従前から知られていた欠測データに関する分布の性質が,導出された性質を使って簡明に証明できることが明らかとなった.本結果は,統計関連学会での学会発表を行い,現在,論文として投稿している. 本年度のもう一つの研究は,欠測の枠組みを用いて判別を行う手法を開発したことである.一般には,判別分析を行う場合,特徴ベクトル(例えば,血液検査の結果など)とその分類(病気かどうか)を示した変数が必要である.しかし,一般には分類を行うには手間や時間がかかるため,一部の個体にのみ分類を行う.この状況は,欠測データ解析と解釈することができる.本研究では,欠測データの枠組みを用いて,効率的に(つまり,誤判別率を小さく)分類するための方法を開発した.これらの結果を二つの論文にまとめ発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の目的の一つは,「無視可能」条件の再構築であった.この目的のためには,「無視可能」条件の意味を吟味する必要があった.これまでの研究の結果によると,単調な欠測の場合には,欠測指標と変数との条件付き独立性条件が同値であること,また非単調な欠測の場合には,欠測指標と変数との条件付き独立性は,無視可能条件の十分条件に過ぎないと言うことであった.これは条件付き独立性をグラフィカルモデルによって表現できるのは,単調な欠測の場合に限られているということを意味している.このことから,非単調な欠測の場合をグラフで表現するには,特別な方法が必要であることを示している.これは具体的な研究目的として挙げた「無視可能条件と同値条件との探索(特に独立性との関連について)」に対して一定の答えを与えていると同時に,更なる研究の必要性を示すものであった. 本研究のもう一つの目的は「無視可能条件の下での推定量の分布」であった.この推定量の分布を出す為には,推定量の明示的な表現が必要である.既にいくつかの限定的な状況下で,正規分布の最尤推定量の明示的な表現を得ている.この研究結果は,欠測データの標本平均の分布や,t統計量の分布の導出に利用することが出来る.今後はこの明示的な最尤推定量の導出を,より一般的な状況下で行う. 以上に示したように,当初の目的に沿った形で結果が出ているので,進捗状況はおおむね順調であると言えるだろう.
|
今後の研究の推進方策 |
今後の研究では,(1)欠測データメカニズムの独立性表現の利用,(2)最尤推定量の明示的な表現の導出,を行う. (1)欠測データメカニズムの独立性表現の利用 これまでに得られた欠測指標と変数間の独立性の関係には不明な点がいくつかある.第一には,欠測指標間の依存関係である.欠測データ解析において重要な役割を果たす無視可能な欠測(MAR)のとき,欠測指標同士の間には直接的な依存関係があるのか,わかっていない.このことが分かると,欠測データの発生構造をグラフで表すグラフィカルモデルが利用できるようになる.そのグラフィカルモデルがデータに適合しているかを調べることによって,欠測データメカニズムの検定ができる.また,欠測データメカニズムをモデリングしなければならないときには,グラフィカルモデルによる表現はそのための重要な一助になる. (2)最尤推定量の明示的な表現 欠測データがある際には,特殊な場合をのぞいて一般には最尤推定量を明示的な形で得ることはできない.そのため数値計算法としてのEMアルゴリズムが開発されてきた.今やEMアルゴリズムは,欠測データ解析においては欠かすことの出来ない基本的な方法である.しかし,EMアルゴリズムにはいくつかの欠点が指摘されている.第一には収束が遅いことであり,第二には最尤推定値の誤差分散が得られないことである.そこで,本研究では昨年度に得られた欠測データと欠測指標の独立性の関係とこれまでの研究で得られた欠測データの表現を用いて,多変量正規分布の最尤推定量を明示的に表現することを目指す.その表現により,EMアルゴリズムを使うことなく最尤推定値を計算でき,結果として誤算分散も明示的に得ることができる.既に従来知られていた結果よりも若干だが,広い状況で明示的な最尤推定量を得ている.この結果は,最尤推定量の小標本の場合の正確な分布を求めことにも役立つ.
|
次年度使用額が生じた理由 |
本年度に研究費を計画的に使用できなかった最大の理由は,研究の結果が出るのが遅かったことである.そのため,予定していた学会に参加申し込みが出来なかったため,予定していた旅費等での予算の使用ができなかった.また同じ理由により,論文の執筆が遅れた結果,予算を予定していたように論文の校正等で使うことができなかった.
|
次年度使用額の使用計画 |
基本となる結果は得られたので,本年はこれを海外の学会で発表するとともに,論文として発表する.予算は,海外への渡航費や学会への参加費として使用する予定である.海外の学会での要旨等は英語であるので,それについての校正にも使用する.海外の学会は,得られた結果が機会学習などの統計学との学際分野とも関連があるので,そのような関連学会にも参加する予定である.また,論文は英語で執筆するので,その論文の校閲にも使用する.更に本年は,結果の妥当性を確認するために,シミュレーションを行うので,そのためのデスクトップパソコンも購入予定である.昨年度の結果を発表するとともに,今年度得られる結果についても学会や論文で発表するので,昨年度の使用予定であった予算についても今年度中に使い切る予定である.
|