臨床医学における典型的な研究として、まず(1)クラスター分析などの教師なし学習により、疾患の重症度などを用いて症例のクラスタリングを行い、次に(2)得られたクラスターをラベルとして判別分析などの教師あり学習を用い、バイオマーカーによるサブタイプの予測や予測に重要なバイオマーカーの特定を行うものがある。このようなアプローチでは、段階ごとに異なる目的関数の最適化を行うため、真のクラスター構造と、それを予測可能な説明変数群の特定に失敗してしまう。本研究では、この問題を解決するために、教師なし学習と教師あり学習の両方の目的を同時に達成するための新たな統計解析の枠組みを提案することとなる。
|