研究課題/領域番号 |
17K12648
|
研究機関 | 岡山大学 |
研究代表者 |
山本 倫生 岡山大学, 環境生命科学研究科, 准教授 (50721396)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
キーワード | クラスタリング / 次元縮小 / 判別分析 / 部分最小二乗回帰 |
研究実績の概要 |
複数の目的変数の特徴を反映したクラスター構造の予測を,ある説明変数群によって行うことを目的とする状況を考える。そのような場合,まずは目的変数だけをデータとしてクラスター分析を適用し,目的変数間に内在するクラスター構造を抽出する。続いて,それを正しいラベルとして,説明変数を用いた予測式の推定を行うことが多い。本研究では,このような従来の逐次的な方法ではなく,目的変数のクラスター構造の抽出と,説明変数によるそのクラスターラベルの予測を同時に行う方法を提案した。提案方法を用いることにより,取り扱っている現象に関連の強いクラスター構造が得られることが期待される。 提案方法では,2つの損失関数の凸結合を損失関数としていた。この方法とは別に,部分最小二乗回帰(partial least squares regression: PLS回帰)を,クラスター分析の枠組みに拡張することによって,提案手法と同様の目的を達成できることが研究を進める中で判明している。そこで,本年度は,提案手法とPLS回帰を利用した方法との比較を数値実験によって行い,それらが同等の性能を示すことが判明してきた。さらに,これら2つの方法の理論的な観点からの比較を現在行っている。特に,元々の提案手法では,クラスター平均ベクトルの推定量に対する一致性が成立することが判明している。 さらに,上記の研究におけるモデルの定式化や推定アルゴリズムから派生して,多変量カテゴリカルデータのクラスタリングに対する新たなモデルの開発を前年度から進めている。今年度は,提案方法による次元縮小後の空間と,元の確率空間との対応関係に関する理論的考察を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究計画では,提案手法におけるクラスター数やその他のチューニングパラメータの値の決定など,モデル選択に対する新たな方法を検討する予定であった。しかし,計画になかったこととして,PLS回帰を利用した方法も有効である可能性が出てきたことから,まずは,提案手法との比較を行う必要が出てきたことが,計画から遅れている理由の一つである。さらに,今年度も所属組織変更の影響を大きく受けたため,本研究に取り組む時間を十分に確保することが困難であったことも,現在の進捗状況がやや遅れている大きな理由である。
|
今後の研究の推進方策 |
令和元年度の計画と同様であるが,部分最小二乗回帰を利用した方法の統計的性質を明らかにし,提案手法との性能比較を行う必要がある。さらに,今年度実施できていなかった,モデル選択に対する新たな方法を開発していく予定である。具体的には,当初の計画の予定通り,Clustering Stabilityを今回の研究に特異的な目的(クラスター構造の探索とその予測の同時分析)に合わせて拡張した概念を定義し,それに基づく方法を開発する。最終的には,複数のデータソースを統一的に利用可能な方法へと拡張を試みる予定である。
|
次年度使用額が生じた理由 |
令和元年度は所属組織の変更などにより,本研究を実施するための時間を十分に確保することが困難であった。また,それに伴って,予定していた国際会議等での発表を行うことができず,そのため,旅費として計上していた金額が,次年度使用分として生じている。令和2年度は,元年度の計画を継続して使用していく予定である。
|