本研究の目的は,多数回の観測が困難であったり再現性に乏しい事象に対して,乏しい観測 データから数理モデルを援用して仮想的な実験観測データを合成し,これを機械学習アプローチに乗せることで精度よく前期の事象を予測・推定する手法を開発することである. 再現性に乏しい事象として,本研究では食品化合物を細胞に投与した際のたんぱく質発現量から,抗酸化活性や細胞増殖抑制活性といった生理活性の高精度推定を取り上げている.研究のアプロ―チとしては,様々な数理モデルに基づく合成データの生成と,これを取り扱う機械学習アプローチの実践的検討の2つをとり,前者についてはロジスティック回帰モデルに基づくデータの生成を終えている.後者については従来から開発・利用している拡張重み更新型自己組織化マップに加え,強化学習アプローチをヒューリスティックと組み合わせて用いる手法についてソフトウェアの開発・改良に取り組んだ. 2022年度の研究実績は,国際会議発表2件(主著者/コレスポンディングオーサー),国内会議発表 1件(共著者)である.本年度は,観測数の少ないスモールデータ環境において,数理モデルに基づいた合成データを学習に用いることで推定精度の向上が図れるか否かを定量的に検証する目的で,生物・医学系でよく用いられる決定木アプローチを取り上げ,これに情報セキュリティ分野で用いられるデータセットを組み合わせ,学習データの縮減が結果にどのように影響を及ぼすか調査した.その過程で,使用するデータセットのラベルの信頼性に疑義が生じたため,改めてラベル付けについて検討を行った.結果として,GBDT(Gradient Boosted Decision Tree)ベースのアルゴリズムが学習データ縮減に強いこと,既存のデータセットのラベルに関し,学会発表を通じて注意喚起を行った.
|