2020 Fiscal Year Research-status Report
NGS analysis of a large genome cohort by deep learning
Project/Area Number |
19K06625
|
Research Institution | Tohoku University |
Principal Investigator |
高山 順 東北大学, 未来型医療創成センター, 准教授 (20574114)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 次世代シークエンス / バイオインフォマティクス / 基準ゲノム / 深層学習 |
Outline of Annual Research Achievements |
本研究は、ゲノム医学研究・希少疾患のゲノム診断分野において次世代シークエンス解析の主流となっているリシークエンシング法の限界を指摘し、深層学習をはじめとした人工知能技術を用いることでその解決を企図し、より正確な集団内のゲノム多様性の描写及び疾患原因バリアントの同定率の向上を目指すものである。本年度は、本研究の一環で行なったリシークエンシング解析の結果を含んだ研究成果を、Nature Communications誌に報告した。この論文は、リシークエンシング法において生じるバイアスの大きな要因の一つである国際基準ゲノム配列を構成する検体の由来集団に起因するバイアスを、民族固有の基準ゲノム配列を用いることで解決できることを指摘したものである。特に本研究の一環として行なったリシークエンシング法の限界を探った解析パートは論文のメインの主張の一つを構成するものであり、民族集団固有のゲノム配列の有用性を示唆するものであった。本論文の反響は大きく、2021年度初頭のAltmetricsによればスコア95と全論文のトップ5%のインパクトを有する発表であった。そのほか、1件の招待講演と2件の国際学会発表を行った。さらに、疾患候補バリアントの優先順位付け等のいわゆるゲノム解析の下流に位置する解析について分析を行なった。その結果、上記解析手法の主流となっているオントロジー技術を用いた疾患候補バリアント優先順位付け技術及びその原理となっている疾患類似性尺度の計算手法に改善すべき点があることを突き止めた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度までに、リシークエンシング法における大きなバイアスの一つである基準ゲノム配列に起因するバイアスについての研究を行い、上記の論文報告や学会発表を行なった。また、日本人集団の民族特異的基準ゲノム配列をアップデートし、JG2を公開した。 さらに昨年度までの研究により、ゲノム診断分野における解決率を阻む要因には、リシークエンシング法のバイアスのほか、検出後のバリアントのアノテーション・疾患候補バリアントの優先順位付け等のいわゆるゲノム解析の下流に位置する解析にも要因があり、むしろそこにこそ、深層学習をはじめとした人工知能技術による解決が必要であることが明らかとなった。そこで、特定の患者の表現型(症状)情報が既知のどの疾患に最も近いかを判定するために、疾患同士の類似度を求めるアルゴリズムのデファクトスタンダードとなっているPhenomizerについて分析を行った。本アルゴリズムは症状のオントロジーと、疾患ー表現型知識データベース(コーパス)を利用したものである。本アルゴリズムは論文は公開されているものの、ソースコードが非公開であること、ウェブベースの技術であること、使用されているオントロジー及び知識データベースのバージョンが不明瞭であることから、再度開発する必要があった。現在までに、本アルゴリズムを再度実装し、患者の示した複数の表現型の組み合わせに基づいて、(1) 2つの疾患のどちらにより近い症状を示しているかを判別すること、及び(2)知識データベースに登録された全ての疾患のうち、もっとも近い疾患が何かを出力すること、について論文の結果を再現することに成功している。
|
Strategy for Future Research Activity |
上記のオントロジーベースの解析手法を分析していく過程で、疾患―表現型知識データベースが特定の分野(例えば小児遺伝性疾患)に非常に偏っていることが明らかとなった。もちろんオントロジー技術は目的に応じて使い分ける必要があるが、知識データベースが人の強いキュレーションに基づくものである以上、特定の分野への偏りは避け難く、人類が積み上げてきた全ての科学知識を利用しているとは言い難いものであることがわかった。さらにオントロジーに基づく類似度判定は、詳細な表現型の記述があったとしてもより抽象的な表現型の情報が使われる傾向にあること、知的発達の遅れなどの多数の希少疾患に共通して見られる表現型情報に過剰な重みがつけられること、さらに、抽象的な表現型と多数の疾患に共通して見られる詳細な表現型が原理的に区別がつかないこと、などさまざまな問題があることが判明した。これらの一部はオントロジーをもとにした新たな類似度指標を開発することによって解決する可能性があるものの、人の強いキュレーションに基づく技術であるという欠点を本質的に解決することは困難であると予想された。このため、次年度以降は、昨今の深層学習を用いた自然言語処理技術の飛躍的発展を応用することでこれらのバイアスの解決を図る。より具体的にはAttention(注意機構)を備えた深層学習モデルを活用し、新たな疾患類似度の開発に取り組み、これを持ってゲノム診断における解決率の向上を狙う。
|
Causes of Carryover |
コロナ禍によりほぼ全ての学会・研究打ち合わせがオンライン開催となり、旅費として計上していた予算の変更が必要となった。そのうちの大部分は研究の遂行に必要な物品費として執行したものの、37,769円は次年度へ繰越となった。次年度は本研究の最終年度であり、残額を解析結果の保存用ストレージに充当する予定である。
|
-
-
[Presentation] A population-specific reference genome built by integrating three de novo Japanese genome assemblies2020
Author(s)
J. Takayama, S. Tadaka, K. Yano, F. Katsuoka, C. Gocho, T. Funayama, S. Makino, Y. Okamura, A. Kikuchi, J. Kawashima, A. Otsuki, J. Yasuda, S. Kure, K. Kinoshita, M. Yamamoto, G. Tamiya
Organizer
European Human Genetics Virtual Conference 2020
Int'l Joint Research
-
-