研究課題/領域番号 |
17K12648
|
研究機関 | 岡山大学 |
研究代表者 |
山本 倫生 岡山大学, 環境生命科学研究科, 准教授 (50721396)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | クラスタリング / 次元縮小 / 判別分析 |
研究実績の概要 |
複数の目的変数の特徴を反映したクラスター構造の予測を説明変数によって行う際には,通常,まずは目的変数に対するクラスタリングを行う。その後,得られたクラスターを正しいラベルとして説明変数に用いた予測式の推定を行うことが多い。本研究ではこのような逐次的な方法ではなく,目的変数のクラスター構造の探索と説明変数によるラベルの予測を同時に行う方法を提案した。従来の方法によって得られるクラスターとは異なり,提案方法によって,解析者が興味のある現象 (目的変数) に関連の強いクラスターが得られることが期待される。 提案手法では2つの損失関数の凸結合を損失関数としている。しかし,平成29年度に検討していたように部分最小二乗回帰 (partial least squares regression; PLS回帰) を利用することによって,目的変数のクラスタリングと説明変数による予測を同時に達成する方法によっても,提案手法と同様の目的を達成することが可能であることがわかっている。そこで,PLS回帰を応用する形で目的変数のクラスター構造の探索と説明変数によるラベルの予測を可能なモデルの定式化を行った。以前提案していた手法との性能の比較を数値実験によって行った。しかし,理論面での性質などはまだ未解明のままであり,今後さらに検討する必要がある。 さらに,上記の研究におけるモデルの定式化や推定アルゴリズムから派生して,多変量カテゴリカルデータのクラスタリングの新たなモデルを開発した。提案手法では単にクラスタリングを行うだけでなく,各特徴量がクラスター構造に与える影響度を定量化し,推定されたクラスター構造の解釈を行うことが可能である。また,数値実験および実データ解析によって,単なるクラスタリング手法としての性能も,既存の方法と比べて同等かそれ以上であることが確認された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究計画では,提案手法におけるクラスター数やその他の制御パラメータの値を決定するための新しい方法について検討する予定であった。しかし,前年度に部分最小二乗回帰を利用した別の定式化が可能であることがわかったため,まずは提案方法の再検討を行った。そのため,平成30年度にもともと計画していた事前に決定すべきパラメータの選択方法についてはまだ取り掛かれていない。 さらに,所属組織の変更の影響により,平成30年度は本研究に取り組む時間を十分に確保することが難しかったことも,現在の進捗状況がやや遅れている大きな理由である。
|
今後の研究の推進方策 |
平成30年度に新たに開発した,部分最小二乗回帰を利用した方法の統計的性質を明らかにし,既存の手法や当初の提案手法との性能の比較を,理論的面および数値実験によって明らかにする。次に,事前に決定すべきパラメータの選択方法を開発する。そのための方法としては,当初の計画通り,Clustering Stabilityを今回の目的 (クラスター構造の発見とその予測の同時分析) に合わせて拡張した方法を開発する。最終的には,複数のデータソースを統一的に利用可能な方法へと拡張を試みる。
|
次年度使用額が生じた理由 |
平成30年度は所属組織の変更などにより,本研究を実施する時間を十分に確保することが難しく,それに伴って,予定していた学会等での発表を行うことができなかった。そのため,旅費として計上していた金額が次年度使用分として生じている。平成31年度は計画通りに使用する予定であるが,場合によっては補助事業期間の延長も検討する。
|