公募研究
網羅的測定によって得られるオミクスデータは,1回の測定で多くの分子種を測定できるが,欠損値が出やすいことや,大きなサンプルサイズのデータセットを得ることが労力と金銭の両方のコストから難しいと言った問題がある.本研究計画では,欠損値とサンプルサイズが小さいことへの問題の対処として,欠損値とネットワーク構造を同時に推定し,サンプルサイズが小さくデータ量が不足する問題に関してはデータベースの事前知識を間接的に利用してパラメータに反映させる手法を開発している.ネットワーク構造は偏相関によって推定するがサンプルサイズが小さいため,精度行列の逆行列を単純に求める方法では逆行列が求まらない,もしくは,偏相関行列が見た目上は密になり,ネットワーク構造の抽出が難しいなどの問題が生じやすい.そのため,偏相関行列がL1ノルム正則化によって疎になるような推定を行っている.欠損値については,データ行列が低ランクに近い仮定をおいて2つの行列の積で表現し,積となる行列を推定することで欠損値を推定している.生物学的データでは,サンプルがクラスタ構造を有して標本ベクトル間に相関が生じやすく,データ行列は全特異値の数に比べて少数の特異値が支配的になることが多いため,仮定は妥当であると考えている.以前の開発手法では,推定が不安定でアルゴリズムが異常終了することがあるという問題があったが,推定モデルの改良により安定して推定が行えるようになった.また,試験的に実データへの適用を行い,小さなサンプルサイズで生物学的事前知識に近い推定結果が得られた.
3: やや遅れている
人工データによる数値実験から,アルゴリズムの挙動に関するパラメータによっては推定アルゴリズムが安定して動作しないケースがあることがわかり,問題点の把握と改良に時間がかかった.現在は推定は行えるが,実行速度と超パラメータの選択において,やや問題を残している.
推定アルゴリズムの高速化,および,超パラメータの選択において,統計学的な情報量規準だけでなく生物学の事前知識を使うことを検討する.開発手法をそのまま多階層オミクスデータに適用することも可能だが,より精度の高い推定を行うために,推定モデルに多階層構造を導入する.開発手法を多階層オミクスデータに実際に適用し,インスリン作用機構の解明に役立てる予定である.
すべて 2017 2016
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件、 謝辞記載あり 1件) 学会発表 (2件) (うち招待講演 1件)
PLOS ONE
巻: 11(8) ページ: e0160548
10.1371/journal.pone.0160548
Science Signaling
巻: 9 ページ: pp. ra112
10.1126/scisignal.aaf3739