2021 Fiscal Year Research-status Report
深層学習を用いたクラスタリングとGWAS解析による低出生体重の病態解明
Project/Area Number |
21K10464
|
Research Institution | Tohoku University |
Principal Investigator |
大沼 ともみ 東北大学, 東北メディカル・メガバンク機構, 助手 (30884655)
|
Co-Investigator(Kenkyū-buntansha) |
栗山 進一 東北大学, 災害科学国際研究所, 教授 (90361071)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | GWAS / 深層学習 / 機械学習 / 疾患クラスタリング / コホート |
Outline of Annual Research Achievements |
低出生体重の遺伝的原因を探索するべく、今年度は以下①~③を行った。①解析パイプラインの開発②深層学習を用いたクラスタリングアルゴリズムの開発③低出生体重児の病型のクラスタリング ①解析パイプラインの開発では、パイプライン処理とは複数のプログラムにまたがり実行される解析処理を一連のプログラムにしておく処理のことで、事前にパイプライン処理の開発を行っておくことで、再現性と実行効率化を図ることができる。パイプライン処理の内容は前処理とメイン処理に分けて設計した。前処理はさらに、対象者の選定・対応する表現型データの抽出・対応する遺伝型データの抽出・使用変数のダミー化に分かれる。メイン処理は、深層学習によるクラスタリング・クラスタに分けたGWAS処理に分かれる。パイプライン処理の設計と開発には、東北大学東北メディカル・メガバンク機構内に設置してあるスーパーコンピュータを利用した。また、クラウド環境もテスト的にプログラム作成のために利用した。前処理の対象者の選定は、東北大学東北メディカル・メガバンク機構のコホート調査で収集された対象者を母集団としている。その後の、対応する表現型データの抽出には同じく東北メディカル・メガバンク機構で収集した遺伝型を使用している。 ②深層学習を用いたクラスタリングアルゴリズムの開発では、最新の深層学習手法としてDeep Embedded ClusteringやAutoEncoderなどのクラスタリング手法の文献調査を行った。妥当性の指標や適用するべき最適なデータ形態について調査した。その調査結果をもとにして、pythonを用いてアルゴリズム開発を行った。 ③低出生体重児の病型のクラスタリングでは、深層学習手法で使用されるハイパーパラメータ群を調整しクラスタリングを行っている。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2021年度は①解析パイプラインの開発、②深層学習を用いたクラスタリングアルゴリズムの開発、③低出生体重児の病型のクラスタリング の計画となっており、計画通りに実施した。また、スーパーコンピュータの利用方法に工夫が必要な部分もあるが、対応できている。 よって、概ね順調に進展している。
|
Strategy for Future Research Activity |
今後の研究推進方策として、パスウェイ解析の充実・遺伝子を解釈するデータベース群の充実を実施予定である。研究を遂行する上での課題は、スーパーコンピュータ等データ基盤のバージョンアップ等による開発環境の変化だが、既存のソフトウェアで対応可能な範疇である。バックアップ体制としては、ハイパフォーマンスPCやワークステーション等の外付けハードディスクを購入しておくことである。今後は、再現検証等やクラスタリング手法・クラスタリング数の検討が必要となる。
|
Causes of Carryover |
主に東北大学東北メディカル・メガバンク機構内に設置してあるスーパーコンピュータを利用可能であったため、ハイパフォーマンスマシンはノートPCで済んだため。
|