Graph Genome Analysis Incorporating Pangenome Diversity

Research Project

Project/Area Number	23K27161
Project/Area Number (Other)	23H02468 (2023)
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Multi-year Fund (2024) Single-year Grants (2023)
Section	一般
Review Section	Basic Section 43060:System genome science-related
Research Institution	The University of Tokyo
Principal Investigator	笠原雅弘東京大学, 大学院新領域創成科学研究科, 准教授 (60376605)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2024)
Budget Amount *help	¥18,720,000 (Direct Cost: ¥14,400,000、Indirect Cost: ¥4,320,000) Fiscal Year 2025: ¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000) Fiscal Year 2024: ¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000) Fiscal Year 2023: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
Keywords	グラフゲノム / パンゲノム / アラインメント / 構造多型 / アルゴリズム / ヒトゲノム / ゲノムブラウザ / 関連解析 / 人類遺伝学 / ロングリード
Outline of Research at the Start	長鎖DNAシークエンサーの登場以降、種内構造多型の多様性が徐々に明らかとなってきた。従来の一般的なゲノム解析では種内のゲノム構造多様性を考慮できないため、さまざまな量的・質的形質と構造多型との関係を見落としていた。本研究では、集団内のゲノム構造多様性を全て包摂したグラフゲノム解析を行うアルゴリズム群を創成することによりゲノムのあらゆる多型を考慮した解析を可能とすることを目指す。グラフゲノムでは途中で分岐を許すグラフ構造を導入することでゲノムを複線化し、集団内で構造的な多様性があるゲノム部分については複数の可能性を同時に保持することができ、単一の参照ゲノムを用いる解析と比べて優れている。
Outline of Annual Research Achievements	構造多型の可視化は専ら IGV ブラウザ等の線形ゲノムブラウザの表示を用いる方法が現在主流となっている。しかし、IGV のような線形のゲノムブラウザは構造多型を念頭に置いて設計されていないため、複数個体の構造多型をまとめて研究者に理解しやすい形で表示することは難しい。構造多型の可視化に向いた機能の限定的な他ツールを併用したり、プレゼンテーションや論文発表のためにツールの可視化出力を分かりやすく表現した手書きの図を描くことが多いが、これらは現状で利用されている構造多型の可視化ツールの機能が劣っており IGV のように論文出版に使える程度の見やすさを持っていないことを示している。このため、良いグラフゲノムブラウザの開発が喫緊の課題であった。本研究では、以前に当研究室で開発した MoMI-Gゲノムブラウザの後継となるグラフゲノムブラウザを開発中であり、ヒトパンゲノム級の巨大なゲノムグラフを表示するWebブラウザベースのグラフゲノムブラウザの PoC を開発した。開発したグラフゲノムブラウザを用いてThe Human Pangenome Reference Consortium がリリースしているヒトグラフゲノムの可視化を行った。MoMI-G とは異なり、タイル状の表示領域インデックスとセマンティックズームを用いることにより、ゲノムグラフ全体のデータ量がどれほど大きくても局所的な表示は高速に行える設計となっている。このブラウザによりゲノム構造多型と質的・量的形質との関係解析や構造多型の解析ツール開発が加速される。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason Webベースのテクノロジーを用いて高性能なアプリケーションを開発できる人材は民間の引き合いが多く生物系のアカデミアには極めて少ない。また、コロナ禍が始まって以来この分野のアカデミア外への人材流出が多く、海外も含めてこの分野の開発は停滞してきている。このような状況にも関わらず、実際にヒトゲノム級の巨大なグラフゲノムをスムーズに表示できるproof of conceptが出来上がったことは喜ばしく、順調に進んでいると言える。また、今後の構造多型解析・グラフゲノムツール解析コミュニティへのインパクトは大きい。
Strategy for Future Research Activity	今後、開発中のグラフゲノムブラウザを PoC レベルから実用レベルにまで実装を洗練させていく。現在は React + Javascript で開発されているが、多人数開発を行いやすいように Vite + React + Typescript の実装に入れ替える。また、バックエンドシステムが Node.js + SQLite で実装されておりスピードに限度があるため、より速い言語やデータベースに差し替えることを検討する。グラフゲノムブラウザを用いて HPRC のグラフゲノムを表示するにあたっては階層化を行うセマンティックズームが必須であるが、グラフレイアウトアルゴリズムとセマンティックズーム向けの階層化クラスタリングが必須である。これらのアルゴリズムは新規に開発する必要があり、既存のアルゴリズムは適しないことが実験で分かっている。このため、グラフレイアウトアルゴリズムとセマンティックズーム向け階層化クラスタリングの新規アルゴリズム開発に取り組む。また、グラフゲノムブラウザ以外については、作成した構造多型の解析のためにさまざまなアライメントツールやジェノタイパー、リピート配列の解析ツールなどを開発していく。グラフゲノム上の遺伝子等アノテーションを行うツールが不足しており、アノテーションを行うソフトウェアをどのように設計するべきか検討していく。また、構造多型の疾患関連度を推定するソフトウェアの開発が今後必要であり、どのような要素が必要か検討する。

Report

(1 results)

2023 Annual Research Report