パンゲノム多様性を包摂するグラフゲノム解析エコシステムの創成

研究課題

研究課題/領域番号	23K27161
補助金の研究課題番号	23H02468 (2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2023)
応募区分	一般
審査区分	小区分43060:システムゲノム科学関連
研究機関	東京大学
研究代表者	笠原雅弘東京大学, 大学院新領域創成科学研究科, 准教授 (60376605)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円) 2025年度: 6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円) 2024年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円) 2023年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円)
キーワード	グラフゲノム / パンゲノム / アラインメント / 構造多型 / アルゴリズム / ヒトゲノム / ゲノムブラウザ / 関連解析 / 人類遺伝学 / ロングリード
研究開始時の研究の概要	長鎖DNAシークエンサーの登場以降、種内構造多型の多様性が徐々に明らかとなってきた。従来の一般的なゲノム解析では種内のゲノム構造多様性を考慮できないため、さまざまな量的・質的形質と構造多型との関係を見落としていた。本研究では、集団内のゲノム構造多様性を全て包摂したグラフゲノム解析を行うアルゴリズム群を創成することによりゲノムのあらゆる多型を考慮した解析を可能とすることを目指す。グラフゲノムでは途中で分岐を許すグラフ構造を導入することでゲノムを複線化し、集団内で構造的な多様性があるゲノム部分については複数の可能性を同時に保持することができ、単一の参照ゲノムを用いる解析と比べて優れている。
研究実績の概要	構造多型の可視化は専ら IGV ブラウザ等の線形ゲノムブラウザの表示を用いる方法が現在主流となっている。しかし、IGV のような線形のゲノムブラウザは構造多型を念頭に置いて設計されていないため、複数個体の構造多型をまとめて研究者に理解しやすい形で表示することは難しい。構造多型の可視化に向いた機能の限定的な他ツールを併用したり、プレゼンテーションや論文発表のためにツールの可視化出力を分かりやすく表現した手書きの図を描くことが多いが、これらは現状で利用されている構造多型の可視化ツールの機能が劣っており IGV のように論文出版に使える程度の見やすさを持っていないことを示している。このため、良いグラフゲノムブラウザの開発が喫緊の課題であった。本研究では、以前に当研究室で開発した MoMI-Gゲノムブラウザの後継となるグラフゲノムブラウザを開発中であり、ヒトパンゲノム級の巨大なゲノムグラフを表示するWebブラウザベースのグラフゲノムブラウザの PoC を開発した。開発したグラフゲノムブラウザを用いてThe Human Pangenome Reference Consortium がリリースしているヒトグラフゲノムの可視化を行った。MoMI-G とは異なり、タイル状の表示領域インデックスとセマンティックズームを用いることにより、ゲノムグラフ全体のデータ量がどれほど大きくても局所的な表示は高速に行える設計となっている。このブラウザによりゲノム構造多型と質的・量的形質との関係解析や構造多型の解析ツール開発が加速される。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 Webベースのテクノロジーを用いて高性能なアプリケーションを開発できる人材は民間の引き合いが多く生物系のアカデミアには極めて少ない。また、コロナ禍が始まって以来この分野のアカデミア外への人材流出が多く、海外も含めてこの分野の開発は停滞してきている。このような状況にも関わらず、実際にヒトゲノム級の巨大なグラフゲノムをスムーズに表示できるproof of conceptが出来上がったことは喜ばしく、順調に進んでいると言える。また、今後の構造多型解析・グラフゲノムツール解析コミュニティへのインパクトは大きい。
今後の研究の推進方策	今後、開発中のグラフゲノムブラウザを PoC レベルから実用レベルにまで実装を洗練させていく。現在は React + Javascript で開発されているが、多人数開発を行いやすいように Vite + React + Typescript の実装に入れ替える。また、バックエンドシステムが Node.js + SQLite で実装されておりスピードに限度があるため、より速い言語やデータベースに差し替えることを検討する。グラフゲノムブラウザを用いて HPRC のグラフゲノムを表示するにあたっては階層化を行うセマンティックズームが必須であるが、グラフレイアウトアルゴリズムとセマンティックズーム向けの階層化クラスタリングが必須である。これらのアルゴリズムは新規に開発する必要があり、既存のアルゴリズムは適しないことが実験で分かっている。このため、グラフレイアウトアルゴリズムとセマンティックズーム向け階層化クラスタリングの新規アルゴリズム開発に取り組む。また、グラフゲノムブラウザ以外については、作成した構造多型の解析のためにさまざまなアライメントツールやジェノタイパー、リピート配列の解析ツールなどを開発していく。グラフゲノム上の遺伝子等アノテーションを行うツールが不足しており、アノテーションを行うソフトウェアをどのように設計するべきか検討していく。また、構造多型の疾患関連度を推定するソフトウェアの開発が今後必要であり、どのような要素が必要か検討する。

報告書

(1件)

2023 実績報告書