研究課題/領域番号 |
21K10464
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分58030:衛生学および公衆衛生学分野関連:実験系を含まない
|
研究機関 | 東北大学 |
研究代表者 |
大沼 ともみ 東北大学, 東北メディカル・メガバンク機構, 助手 (30884655)
|
研究分担者 |
栗山 進一 東北大学, 災害科学国際研究所, 教授 (90361071)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2021年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
|
キーワード | GWAS / 深層学習 / 機械学習 / 疾患クラスタリング / コホート |
研究開始時の研究の概要 |
低出生体重と関連する環境要因は、ある程度明らかにされているものの、遺伝要因については十分に明らかとなっていない。われわれの研究室では機械学習のクラスタリングとGWAS解析で自閉スペクトラム症の潜在的遺伝要因を明らかにした。 本研究の目的は、①大規模出生三世代コホートデータを基盤にして得られた表現型の情報を用いて新たに開発する深層学習的手法でクラスタリングを行い、②得られたクラスタリング結果のGWAS解析を行うことで、③低出生体重児の病態解明を行うことである。
|
研究実績の概要 |
1.phenotype-genotype data preparation2.unsupervised deep-learning 低出生体重の遺伝的原因を探索するべく、今年度は以下①~③を行った。①解析パイプラインの開発②深層学習を用いたクラスタリングアルゴリズムの開発③低出生体重児の病型のクラスタリング①解析パイプラインの開発では、パイプライン処理とは複数のプログラムにまたがり実行される解析処理を一連のプログラムにしておく処理のことで、事前にパイプライン処理の開発を行っておくことで、再現性と実行効率化を図ることができる。パイプライン処理の内容は前処理とメイン処理に分けて設計した。前処理はさらに、対象者の選定・対応する表現型データの抽出・対応する遺伝型データの抽出・使用変数のダミー化に分かれる。メイン処理は、深層学習によるクラスタリング・クラスタに分けたGWAS処理に分かれる。パイプライン処理の設計と開発には、東北大学東北メディカル・メガバンク機構内に設置してあるスーパーコンピュータを利用した。また、クラウド環境もテスト的にプログラム作成のために利用した。前処理の対象者の選定は、東北大学東北メディカル・メガバンク機構のコホート調査で収集された対象者を母集団としている。その後の、対応する表現型データの抽出には同じく東北メディカル・メガバンク機構で収集した遺伝型を使用している。②深層学習を用いたクラスタリングアルゴリズムの開発では、最新の深層学習手法としてDeep Embedded ClusteringやAutoEncoderなどのクラスタリング手法の文献調査を行った。妥当性の指標や適用するべき最適なデータ形態について調査した。その調査結果をもとにして、pythonを用いてアルゴリズム開発を行った。③低出生体重児の病型のクラスタリングでは、深層学習手法で使用されるハイパーパラメータ群を調整しクラスタリングを行っている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2022年度は低出生体重児の病型のクラスタリングを計画し 1クラスタリングで使用しているハイパーパラメータの調整 2クラスタリング以外の深層学習で使用しているハイパーパラメータの調整 を行い、深層学習を用いた病型分類が有効である可能性を示した。ただ深層学習のモデルの複雑さによりハイパーパラメータの調整に時間を要しているのと、多 因子疾患である可能性が見えているため、低出生体重児の原因となる決定的な候補は見つけられていない。よって、やや遅れている区分を選択した。
|
今後の研究の推進方策 |
今後の研究推進方策として、引き続きパスウェイ解析の充実・遺伝子を解釈するデータベース群の充実を実施予定である。 また遅れている部分については、内部のゲノムプラットフォームセンターも有効に活用する予定である。 引き続き再現検証は同じToMMo内のデータの他、海外のゲノムデータの参照も行っていく。
|