本研究では、数千次元を超える超高次元大規模データから各サブプロセスを表す変数と事例、モデルの候補組を高速探索列挙するモデルマイニング原理を探求すること、さらに医療等への実験適用を通じアルゴリズムを検討することを目的とした。筆者等は、自らの部分空間クラスタリング、最適化変数・事例選択、探索列挙等の研究成果と医療・経済等の実践的研究経験からこの着想を得た。本探究により、世界を先導する次世代データマイニング・機械学習の重要分野を拓くことを目指した。 より具体的には、(1)データから蓋然性の高い候補を見出す統計的・情報論的原理の構築、(2)超高次元大規模データから統計的・情報論的原理により候補を高速探索する手法の確立、(3)医療などの実ビッグデータに基づく効率的アルゴリズムの検討、(4)原理・手法・アルゴリズムの実例題検証の4項目を実施した。 その結果、大規模データから非常に高速、高精度なモデルマイングを可能とする基礎原理であるランダムサブサンプリングとアンサンブルモデリングの原理を確立し、それを実装する半空間データ質量やデータ質量ベース類似性尺度の手法を得た。またそれらを医療分野に適用し、心疾患臨床患者データから従来知られていなかった心疾患生起メカニズムモデルを発掘することに成功した。以上の成果を、機械学習の世界トップ論文誌であるMachine Learningやデータマイニングの世界トップ国際会議であるICDM、及び医学主要論文誌に発表した。
|