2021年度の「逆問題解決型特異的因子・属性分類特徴量計量システム」に関する研究課題について,以下の3点を中心に,生命科学分野の多次元パラメータを持つ実データを対象とした研究・開発・評価を行い,事象発生原因となる特徴量を発見・認知するデータ解析システムを構築した. 情報工学分野からの生命科学データベース構築,知識発見方式の定式化という研究切り口だけではなく,乳がんの5年転移や遺伝子オントロジーという生命科学的・医学的に重要となる指標を対象とした変数選択,数理モデル構築に関する研究も行い,日本癌学会や国際メタボローム学会にて発表を行った. 1)セマンティック・コンピューティングに向けた事象原因探究手法の開発:腸内細菌の保有率を示す次世代シーケンサーデータを対象に,複数の属性の連続性と分布から,属性分類可能な部分空間を生成・記憶する新たなデータマイニング方式に必要な演算セットを定義し,代数系を構築した. 2)機械学習に向けた事象原因探究手法の開発:乳がんの遺伝子発現量を示すマイクロアレイデータを対象に,変数セット(数,種類,多重共線性)と実験手法(学習・検証データ分割と数理モデル構築)を考慮することで,変数間の相関量を測る分散拡大係数と,少ない観測情報で予測する多重ロジスティック回帰モデルを用いて,最小限の遺伝子セットを選択することが可能となった. 3)生命科学分野における事象原因探究の意義の評価:本研究により定式化された特異的因子計量方式(Purity Computing)により,任意のヒト属性に対する複数の集合から1つの集合を識別・分類する部分空間(細菌種)の特徴量計量が可能となった.新たな変数選択手法(Correlation-centered Variable Selection)により,5年転移を既存の類似手法よりも少数かつ高い精度で予測できる遺伝子セットの選択が可能となった.
|