2020 Fiscal Year Research-status Report
EMアルゴリズムに代わる欠測データを用いたパラメータ推定法の開発
Project/Area Number |
18K11205
|
Research Institution | Kansai University |
Principal Investigator |
高井 啓二 関西大学, 商学部, 教授 (20572019)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 欠測データ / EMアルゴリズム / フィッシャースコアリング / 因子分析 |
Outline of Annual Research Achievements |
昨年度から本年度にかけては,欠測データを用いてパラメータを推定する方法の開発に取り組んできた.欠測データとは,本来計画されている完全に全てが観測されたデータではなく,何らかの理由によって観測されない部分が生じたデータのことである.このような欠測データの問題点の一つは,通常の統計的手法で想定されているような計算の手続きが困難になることである.例えば,平均を計算するという非常に基礎的かつ単純な場合においても,欠けた部分をどのように扱うかという問題が生じる.この欠けた部分をどのように扱うかによって次のステップである信頼区間の構築や検定などの推測に重大な影響をもたらすことになる.したがって,欠測データからパラメータを推定する段階で,正確に推定することが必要不可欠である.欠測データのもう一つの問題点は,正しく計算するのに多大な手間がかかることである.欠測データからのパラメータ推定のために,従来ではEMアルゴリズムという非常に汎用性の高いアルゴリズムを利用してきた.このアルゴリズムの問題点は,収束が遅いこと,そして推測において必要となる標準誤差を別途計算しなければならないことであった.そこで,こういった問題点を克服すべく,新たな計算方法として欠測データのフィッシャースコアリング法を開発してきた.この計算法はその名の通りフィッシャースコアリング法を欠測データを扱えるように拡張したものである.この方法の利点は,EMアルゴリズムの二つの問題点を克服していることに加えて,多くの分布に対するEMアルゴリズムを特殊な場合として含むことにある.この計算法の収束のスピードや,収束する条件についての議論を行ってきた.更に因子分析を題材として,パラメータを分割した場合の性質や加速の限界の条件について探索を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度の計画では,(1) 非単調増加の推定法,(2) 収束を加速した推定法,(3) パラメータを分割したときの推定法,(4) パラメータに制約があるときの推定法,を開発することであった.「(1)非単調増加の推定法」については,現在まで新たな結果は得られていない.「(2)収束を加速した推定法」について,正定行列を重みとして持つフィッシャースコアリング法を加速させても,その加速の限界は重みである正定行列に基づくという結果が得られた.そして,現在の欠測データのフィッシャースコアリング法が加速の限界を達成していることもわかった.「(3)パラメータを分割したときの推定法」と「(4)パラメータに制約があるときの推定法」については,因子分析モデルを例として研究してきた.因子分析はその潜在変数を欠測データ分析の枠組みに入れることができるため本研究の目的には有用である.さらに,因子分析のパラメータは因子負荷量のパラメータと独自分散のパラメーターという風に自然に分けることができるため,この二種類のパラメータを別々に推定できる.このパラメータ分割の性質を調べることにより,未知のモデルに対しても分割方法のルールを作ることができると考えている.この因子分析モデルでは,独自分散の推定値がマイナスになるという問題が生じやすいことが知られている(これを不適解の問題という).この不適解の問題は,欠測データのフィッシャースコアリング法の重み行列が一定の条件を満たしている限り,因子分析モデルでは不適解は得られないことがわかった.以上のような結果が得られているが,学会発表や論文執筆にまでは至っていないため,「やや遅れている」という区分としている.
|
Strategy for Future Research Activity |
今後は,因子分析モデルにおける様々な課題を解決していくことに注力する.第一に,因子分析モデルにおける不適解を出さない推定法について考える.これまでの研究から,因子分析モデルにおいて不適を出さない推定法のクラスが存在していることがわかっている.すでにEM アルゴリズムでは不適解が発生しないことは知られていたが,他の推定方法においても不適解が発生しないことは新たな発見である.そこで,EM アルゴリズムを含むより広い推定法のクラスにおいて,不適解を出さないクラスが存在していることを数学的に証明し,このクラスの性質を調べる.不適解の研究で重要なことは,不適解を出さないことではなく,不適解が存在する可能性を示唆できることである.したがって,不適解がある時にこのクラスがどのような挙動をするかについても調べる.第二に,因子分析モデルのパラメータを効率的に推定する方法を開発する.あるベンチマークデータについては色々な定常点が存在していることが知られているが,開発したフィッシャースコアリング法によるともっと多くの定常点が存在していることが示唆されている.実用上重要なことは,そういった多くの定常点で計算を止めてしまわずに極大点となるような収束点を発見することにある.そこで,多く存在している定常点を超えて進むことができる推定方法として,非単調増加する推定法について研究する.第三にパラメータ分割により推定の負荷を減少させる方法を考える.因子分析モデルにおいてはパラメータの分割は,そのパラメータの意味から自然に行われる.この分割に基づくと,パラメーターの推定を別々の式で行うことができる.つまり,計算量を減らすことができる.このような計算方法を他のモデルにおいても使うためには,パラメータの分割を人為的に起こせばよい.そこで,本年度は候補となる方法の一つとしてブロック対角化について研究する.
|
Causes of Carryover |
昨年度はコロナ禍のため,計画のほとんどが実行できなかった.授業がオンラインとなり,授業の用意で時間が取られた.その結果,研究に使える時間が大幅に減少した.もともとの計画では,国内外での発表にともなう参加費・旅費や,論文の英文校閲などに予算を使う計画であった.しかし,参加を計画していた国内外の学会での発表ができなくなり,参加費・旅費については使用できなくなった.学会では,他の研究者から意見を聞き,研究をブラッシュアップしてく予定であったが,実現できなかった.研究時間の減少により,論文を執筆することもほとんど出来ていない.以上のような理由により,昨年度は使用計画通りには全く進まなかった.
今年度は,オンライン授業などのノウハウが蓄積されてきたため,昨年度に比べると研究に割り当てる時間を増加できると考えられる.したがって,研究費は国内外のオンラインの学会に参加するための費用として使用する.もし状況が許せば,海外に直接発表しに行くための渡航費としても使用する.他にも,これまでの研究結果を論文としてまとめ発表する際に,英文校閲を行うために予算を使う.研究結果を広く利用してもらえるようアクセプトされた論文をオープンアクセスにするためにも予算を使用する計画である.
|