2019 年度実績報告書

逆問題解決型特異的因子・属性分類特徴量計量システムの実現

研究課題

研究課題/領域番号	19J20660
研究機関	慶應義塾大学
研究代表者	引地志織慶應義塾大学, 政策・メディア研究科, 特別研究員(DC1)
研究期間 (年度)	2019-04-25 – 2022-03-31
キーワード	Semantic Computing / Data Mining / Inverse Analysis / Complexity / Personalized Medicine / Bioinformatics / Breast Cancer / Metastasis
研究実績の概要	2019年度の「逆問題解決型特異的因子・属性分類特徴量計量システム」に関する研究課題について，以下の3点を中心に研究・開発・評価を行い，統合的なデータ解析環境として事象発生原因となる属性分類のための特徴量を発見・認知するデータ解析システムを構築した．また，情報工学分野からの生命科学データベース構築，定式化という研究切り口だけではなく，将来的に情報工学と生命科学という両分野からの研究の実施を目標としているため，生命科学分野からの情報工学アプローチ（変数選択，数理モデル構築）に関する研究も行い，学術論文を投稿した． 1)利用者の背景知識に依存しないデータ解析システムの構築：Semantic Computingの分野で最も著名な国際会議であるIEEE ICSCにて採択された方法論の定式化を行った．腸内細菌データをケーススタディとして，事象原因となる特徴量を発見する方法論である意味的逆問題解析方式の新たな計算方式である，属性分類のための特異的因子を計量する逆問題分析のための演算セットの定義，及び，代数系を構築した． 2)応用可能性の高いシステム設計・実現に向けた関連性計量アルゴリズムの構築：本研究の利用価値は，計算量減少ではなく，現状の分析方法では計量できない単一事象の発生原因となる特徴的因子を計量できる点にある．全事象に対する単一事象の特徴を計量する現状の計算手法では膨大な計算量となるため，2つの事象間の特徴を組合せることで多事象の特徴量を計量できるようにアルゴリズムを構築し，実装実験を行った． 3)解釈に専門的な知識が必要な特殊なデータに合わせたデータベース構築：乳がんの遺伝子発現量を対象としたマイクロアレイデータというデータベースを構築し，5年転移を商業用よりも少数かつ高い精度で予測できる遺伝子セットを選択する数理モデルを構築し，Scientific Reportsに採択された．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度は，利用者の背景知識に依存しないデータ解析システムの構築，応用可能性の高いシステム設計・実現に向けた関連性計量アルゴリズムの構築，解釈に専門的な知識が必要な特殊なデータに合わせたデータベース構築を行った．当初の計画では，3種以上の指標の組み合わせを検討できるようにアルゴリズムを拡張予定であったが，検証実験を進めたところ，全事象に対する単一事象の特徴を計量する現状の計算手法では膨大な計算量となるため，2つの事象間の特徴を組み合わせることで多事象の特徴量を計量できるように計算方法を変更し，実装実験を行った．実装実験により得られた結果を基にして，現在国際学術論文を執筆している段階にあるため，執筆している内容の質を向上させつつ，早い時期での論文投稿を行う．また，解釈に専門的な知識が必要な特殊なデータとして，乳がんの遺伝子発現量を対象としたマイクロアレイデータを利用したデータベース構築を行い，5年転移を商業用よりも少数かつ高い精度で予測できる遺伝子セットを選択する数理モデルを構築し，Scientific Reportsに採択された．上記の理由から，概ね予定通りに研究が進行していると考える．
今後の研究の推進方策	本研究による逆問題解決型特異的因子・属性分類特徴量計量方式に関して，2つの事象間の特徴を組み合わせることで多事象の特徴量を計量できるように拡張したアルゴリズムを使った実証実験についての学術論文投稿を行う．また，本研究はSemantic Computing，Semantic Integrationの分野の手法開発として，現状の分析方法では計量できない単一事象の発生原因となる特異的因子の発見を行っているが，単一事象の特徴を組み合わせて得られた全事象の特徴量については，既存のアルゴリズムであるRandom Forests RegressionやLasso Regressionとの比較実験を行う．当初の計画では，公開済みの特殊データを収集し，データベースを構築することとなっていたが，検証実験の結果や2つの事象間の特徴によっては，他の公開データに適用する前に，現状のデータに含まれている事象データに適用できる分析方法を確立する．他データへの適用をする場合は，保管されているデータベースごとにデータ構造化の冗長性が見られる場合があるため，データ構造の検証や公開データ適用時のシステム精度評価を行い，評価結果に応じて，スケジュールを一時的に遅らし，本システムの改良を行う予定である．

研究成果
(2件)

すべて 2020 その他

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 備考 (1件)

[雑誌論文] Correlation-centred variable selection of a gene expression signature to predict breast cancer metastasis2020
- 著者名/発表者名
  Hikichi Shiori、Sugimoto Masahiro、Tomita Masaru
- 雑誌名
  
  Scientific Reports
  
  巻: 10 ページ: 7923
- DOI
  10.1038/s41598-020-64870-z
- 査読あり / オープンアクセス
[備考] Shiori Hikichi website
- URL
  https://web.sfc.keio.ac.jp/~shiorih/