• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

深層学習による大規模ゲノムコホートの次世代シークエンス解析

研究課題

研究課題/領域番号 19K06625
研究機関東北大学

研究代表者

高山 順  東北大学, 未来型医療創成センター, 准教授 (20574114)

研究期間 (年度) 2019-04-01 – 2022-03-31
キーワード次世代シークエンス / バイオインフォマティクス / 基準ゲノム / 深層学習
研究実績の概要

本研究は、ゲノム医学研究・希少疾患のゲノム診断分野において次世代シークエンス解析の主流となっているリシークエンシング法の限界を指摘し、深層学習をはじめとした人工知能技術を用いることでその解決を企図し、より正確な集団内のゲノム多様性の描写及び疾患原因バリアントの同定率の向上を目指すものである。本年度は、本研究の一環で行なったリシークエンシング解析の結果を含んだ研究成果を、Nature Communications誌に報告した。この論文は、リシークエンシング法において生じるバイアスの大きな要因の一つである国際基準ゲノム配列を構成する検体の由来集団に起因するバイアスを、民族固有の基準ゲノム配列を用いることで解決できることを指摘したものである。特に本研究の一環として行なったリシークエンシング法の限界を探った解析パートは論文のメインの主張の一つを構成するものであり、民族集団固有のゲノム配列の有用性を示唆するものであった。本論文の反響は大きく、2021年度初頭のAltmetricsによればスコア95と全論文のトップ5%のインパクトを有する発表であった。そのほか、1件の招待講演と2件の国際学会発表を行った。さらに、疾患候補バリアントの優先順位付け等のいわゆるゲノム解析の下流に位置する解析について分析を行なった。その結果、上記解析手法の主流となっているオントロジー技術を用いた疾患候補バリアント優先順位付け技術及びその原理となっている疾患類似性尺度の計算手法に改善すべき点があることを突き止めた。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

昨年度までに、リシークエンシング法における大きなバイアスの一つである基準ゲノム配列に起因するバイアスについての研究を行い、上記の論文報告や学会発表を行なった。また、日本人集団の民族特異的基準ゲノム配列をアップデートし、JG2を公開した。
さらに昨年度までの研究により、ゲノム診断分野における解決率を阻む要因には、リシークエンシング法のバイアスのほか、検出後のバリアントのアノテーション・疾患候補バリアントの優先順位付け等のいわゆるゲノム解析の下流に位置する解析にも要因があり、むしろそこにこそ、深層学習をはじめとした人工知能技術による解決が必要であることが明らかとなった。そこで、特定の患者の表現型(症状)情報が既知のどの疾患に最も近いかを判定するために、疾患同士の類似度を求めるアルゴリズムのデファクトスタンダードとなっているPhenomizerについて分析を行った。本アルゴリズムは症状のオントロジーと、疾患ー表現型知識データベース(コーパス)を利用したものである。本アルゴリズムは論文は公開されているものの、ソースコードが非公開であること、ウェブベースの技術であること、使用されているオントロジー及び知識データベースのバージョンが不明瞭であることから、再度開発する必要があった。現在までに、本アルゴリズムを再度実装し、患者の示した複数の表現型の組み合わせに基づいて、(1) 2つの疾患のどちらにより近い症状を示しているかを判別すること、及び(2)知識データベースに登録された全ての疾患のうち、もっとも近い疾患が何かを出力すること、について論文の結果を再現することに成功している。

今後の研究の推進方策

上記のオントロジーベースの解析手法を分析していく過程で、疾患―表現型知識データベースが特定の分野(例えば小児遺伝性疾患)に非常に偏っていることが明らかとなった。もちろんオントロジー技術は目的に応じて使い分ける必要があるが、知識データベースが人の強いキュレーションに基づくものである以上、特定の分野への偏りは避け難く、人類が積み上げてきた全ての科学知識を利用しているとは言い難いものであることがわかった。さらにオントロジーに基づく類似度判定は、詳細な表現型の記述があったとしてもより抽象的な表現型の情報が使われる傾向にあること、知的発達の遅れなどの多数の希少疾患に共通して見られる表現型情報に過剰な重みがつけられること、さらに、抽象的な表現型と多数の疾患に共通して見られる詳細な表現型が原理的に区別がつかないこと、などさまざまな問題があることが判明した。これらの一部はオントロジーをもとにした新たな類似度指標を開発することによって解決する可能性があるものの、人の強いキュレーションに基づく技術であるという欠点を本質的に解決することは困難であると予想された。このため、次年度以降は、昨今の深層学習を用いた自然言語処理技術の飛躍的発展を応用することでこれらのバイアスの解決を図る。より具体的にはAttention(注意機構)を備えた深層学習モデルを活用し、新たな疾患類似度の開発に取り組み、これを持ってゲノム診断における解決率の向上を狙う。

次年度使用額が生じた理由

コロナ禍によりほぼ全ての学会・研究打ち合わせがオンライン開催となり、旅費として計上していた予算の変更が必要となった。そのうちの大部分は研究の遂行に必要な物品費として執行したものの、37,769円は次年度へ繰越となった。次年度は本研究の最終年度であり、残額を解析結果の保存用ストレージに充当する予定である。

  • 研究成果

    (4件)

すべて 2021 2020

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (3件) (うち国際学会 2件、 招待講演 1件)

  • [雑誌論文] Construction and integration of three de novo Japanese human genome assemblies toward a population-specific reference2021

    • 著者名/発表者名
      Takayama Jun、Tadaka Shu、Yano Kenji、Katsuoka Fumiki、Gocho Chinatsu、Funayama Takamitsu、Makino Satoshi、Okamura Yasunobu、Kikuchi Atsuo、Sugimoto Sachiyo、Kawashima Junko、Otsuki Akihito、Sakurai-Yageta Mika、Yasuda Jun、Kure Shigeo、Kinoshita Kengo、Yamamoto Masayuki、Tamiya Gen
    • 雑誌名

      Nature Communications

      巻: 12 ページ: 226

    • DOI

      10.1038/s41467-020-20146-8

    • 査読あり / オープンアクセス
  • [学会発表] A population-specific reference genome built by integrating three de novo Japanese genome assemblies2020

    • 著者名/発表者名
      J. Takayama, S. Tadaka, K. Yano, F. Katsuoka, C. Gocho, T. Funayama, S. Makino, Y. Okamura, A. Kikuchi, J. Kawashima, A. Otsuki, J. Yasuda, S. Kure, K. Kinoshita, M. Yamamoto, G. Tamiya
    • 学会等名
      European Human Genetics Virtual Conference 2020
    • 国際学会
  • [学会発表] 日本人基準ゲノムJG1の構築と小児希少疾患の全エクソーム解析への応用2020

    • 著者名/発表者名
      高山順
    • 学会等名
      第27回日本遺伝子診療学会
    • 招待講演
  • [学会発表] Toward a Population-Specific Reference Genome:The Japanese Reference Genomes, JG1 and JG22020

    • 著者名/発表者名
      Jun Takayama
    • 学会等名
      T2T/HPRC Consortium 2020
    • 国際学会

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi