Project/Area Number |
21K10464
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 58030:Hygiene and public health-related: excluding laboratory approach
|
Research Institution | Tohoku University |
Principal Investigator |
大沼 ともみ 東北大学, 東北メディカル・メガバンク機構, 助手 (30884655)
|
Co-Investigator(Kenkyū-buntansha) |
栗山 進一 東北大学, 災害科学国際研究所, 教授 (90361071)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
|
Keywords | GWAS / 深層学習 / 機械学習 / 疾患クラスタリング / コホート |
Outline of Research at the Start |
低出生体重と関連する環境要因は、ある程度明らかにされているものの、遺伝要因については十分に明らかとなっていない。われわれの研究室では機械学習のクラスタリングとGWAS解析で自閉スペクトラム症の潜在的遺伝要因を明らかにした。 本研究の目的は、①大規模出生三世代コホートデータを基盤にして得られた表現型の情報を用いて新たに開発する深層学習的手法でクラスタリングを行い、②得られたクラスタリング結果のGWAS解析を行うことで、③低出生体重児の病態解明を行うことである。
|
Outline of Annual Research Achievements |
1.phenotype-genotype data preparation2.unsupervised deep-learning 低出生体重の遺伝的原因を探索するべく、今年度は以下①~③を行った。①解析パイプラインの開発②深層学習を用いたクラスタリングアルゴリズムの開発③低出生体重児の病型のクラスタリング①解析パイプラインの開発では、パイプライン処理とは複数のプログラムにまたがり実行される解析処理を一連のプログラムにしておく処理のことで、事前にパイプライン処理の開発を行っておくことで、再現性と実行効率化を図ることができる。パイプライン処理の内容は前処理とメイン処理に分けて設計した。前処理はさらに、対象者の選定・対応する表現型データの抽出・対応する遺伝型データの抽出・使用変数のダミー化に分かれる。メイン処理は、深層学習によるクラスタリング・クラスタに分けたGWAS処理に分かれる。パイプライン処理の設計と開発には、東北大学東北メディカル・メガバンク機構内に設置してあるスーパーコンピュータを利用した。また、クラウド環境もテスト的にプログラム作成のために利用した。前処理の対象者の選定は、東北大学東北メディカル・メガバンク機構のコホート調査で収集された対象者を母集団としている。その後の、対応する表現型データの抽出には同じく東北メディカル・メガバンク機構で収集した遺伝型を使用している。②深層学習を用いたクラスタリングアルゴリズムの開発では、最新の深層学習手法としてDeep Embedded ClusteringやAutoEncoderなどのクラスタリング手法の文献調査を行った。妥当性の指標や適用するべき最適なデータ形態について調査した。その調査結果をもとにして、pythonを用いてアルゴリズム開発を行った。③低出生体重児の病型のクラスタリングでは、深層学習手法で使用されるハイパーパラメータ群を調整しクラスタリングを行っている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2022年度は低出生体重児の病型のクラスタリングを計画し 1クラスタリングで使用しているハイパーパラメータの調整 2クラスタリング以外の深層学習で使用しているハイパーパラメータの調整 を行い、深層学習を用いた病型分類が有効である可能性を示した。ただ深層学習のモデルの複雑さによりハイパーパラメータの調整に時間を要しているのと、多 因子疾患である可能性が見えているため、低出生体重児の原因となる決定的な候補は見つけられていない。よって、やや遅れている区分を選択した。
|
Strategy for Future Research Activity |
今後の研究推進方策として、引き続きパスウェイ解析の充実・遺伝子を解釈するデータベース群の充実を実施予定である。 また遅れている部分については、内部のゲノムプラットフォームセンターも有効に活用する予定である。 引き続き再現検証は同じToMMo内のデータの他、海外のゲノムデータの参照も行っていく。
|