研究課題/領域番号 |
19J20660
|
研究機関 | 慶應義塾大学 |
研究代表者 |
引地 志織 慶應義塾大学, 政策・メディア研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2019-04-25 – 2022-03-31
|
キーワード | セマンティック・コンピューティング / 逆問題 / 複雑性 / データマイニング / 乳がん / 腸内細菌 |
研究実績の概要 |
今年度は,世界規模での複雑化する健康に向けた情勢下にて,人々の多様化する生活様式について特性を捉え,疾患と生体物質の関係性を示す病理学的・生物機能的に有効なバイオマーカーを発見するデータ解析システムを構築した. 本研究では,情報工学からの生命科学データ分析という研究切り口だけではなく,情報工学と生命科学という両分野からの研究の実施を目標としているため,以下の3点を中心に研究・開発・評価を行い,統合的なデータ解析環境を実現した. 1)セマンティック・コンピューティングに向けた事象原因探究手法の開発:本研究の利用価値は,計算量減少ではなく,現状の分析方法では計量できない事象原因となる特徴的因子を計量できる点にある.生命科学分野の多次元パラメータを持つ実データを対象に,複数の属性の連続性と分布から,属性分類可能な部分空間を生成・記憶する逆問題解決型特徴量計量方式を定式化し,新たな特異的因子計量方式の演算セットを定義し,代数系を構築した. 2)機械学習に向けた事象原因探究手法の開発:乳がんの遺伝子発現量を示すマイクロアレイデータを対象に,変数セット(数,種類,多重共線性)と実験手法(学習・検証データ分割と数理モデル構築)を考慮することで,変数間の相関量を測る分散拡大係数と,少ない観測情報で予測する多重ロジスティック回帰モデルを用いて,最小限の遺伝子シグネチャーを選択することが可能となる. 3)生命科学分野における事象原因探究の意義の評価:Purity Computingにより,任意のヒト属性に対する複数の集合から1つの集合を識別・分類する部分空間(細菌種)の特徴量計量が可能となった.また,実際のデータベースシステム,機械学習に適用できる変数選択手法Correlation-centered Variable Selectionとして実装し,Scientific Reportsに採択された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の主要な新規性および有用性は,生命科学分野の多次元パラメータを持つ実データ(腸内細菌の保有率を示す次世代シーケンサーデータ,発現遺伝子を示すマイクロアレイデータ)を対象とした,Semantic Inverse Analysisによる部分空間選択手法の設計,Purity Computingを実現するアルゴリズム,および,Correlation-centered Variable Selectionによる変数間の相関量を計量し変数選択を実現するシステムを提案し,それらを実際にデータベースシステム,機械学習に適用できる変数選択手法として実装し,実験を行うことにより,それらの実現可能性,有効性を実証できている点にある.乳がん組織の5年以内転移を予測する遺伝子発現シグネチャーの相関中心変数選択方式であるCorrelation-centered Variable Selectionは,2020年にScientific Reportsに採択された.
|
今後の研究の推進方策 |
本研究で提案した事象原因発見手法は,世界規模での複雑化する健康に向けた情勢下にて,人々の多様化する生活様式について特性を捉え,疾患と生体物質の関係性を示す病理学的・生物機能的に有効なバイオマーカーを発見し,将来の健康状況や様々ながん種の治療成績,予後など,他の要因の発見にも応用できる汎用性の高い方法であることを示している.来年度は,腸内細菌の保有率を示す次世代シーケンサーデータや,発現遺伝子を示すマイクロアレイデータ以外の,生命科学分野の多次元パラメータを持つ実データについても本研究により提案している事象原因探究手法の適用,及び,生命科学分野における事象原因探究の意義の評価を行う予定である.
|