多くの変数から成る高次元データから,有用な少数の変数を取り出す手法は変数選択と呼ばれる.この変数選択において,データサンプルが少し変わるだけで選択される変数が大きくばらつき,最終的に何が有用な変数なのか分からない場合が多くある.これは,変数選択の不安定性の問題と呼ばれる.本研究課題では,この問題に取り組み,ばらついた結果の中から,真に有用な変数を取り出す枠組みを構築することを目的としている.また,有用な変数の組が複数存在する場合を考慮することで,従来は見過ごされてしまう可能性のあった有用な変数の発見を可能にすることも目的としている.提案する枠組みが完成することにより,より高い精度での遺伝子診断(病気リスク診断など)を行うことが可能になると期待される. 本年度は,昨年度までに取り組んでいた,変数同士および変数とサンプルとの関連性を可視化・クラスタリングする手法について,より詳細な検証を行った.変数同士の関係性を明らかにするための低次のモデルについても,検証を行った.また,情報理論の観点を取り入れた解析,特に変数間の相乗効果(シナジー)について検証を行った.シナジーは情報理論に基づく概念であり,シナジーを用いることで,複数の変数が合わさることで初めて得られる情報を定量化することができる.シナジーを用いた解析・シナジーの定式化は,近年注目を集めている研究トピックであり,今後の発展が強く期待されている.
|