2023 Fiscal Year Annual Research Report
Fostering a graph genome ecosystem for pan-genome and genome diversity
Project/Area Number |
23H02468
|
Allocation Type | Single-year Grants |
Research Institution | The University of Tokyo |
Principal Investigator |
笠原 雅弘 東京大学, 大学院新領域創成科学研究科, 准教授 (60376605)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | グラフゲノム / ヒトゲノム / 構造多型 / ゲノムブラウザ / 関連解析 / アルゴリズム |
Outline of Annual Research Achievements |
構造多型の可視化は専ら IGV ブラウザ等の線形ゲノムブラウザの表示を用いる方法が現在主流となっている。しかし、IGV のような線形のゲノムブラウザは構造多型を念頭に置いて設計されていないため、複数個体の構造多型をまとめて研究者に理解しやすい形で表示することは難しい。構造多型の可視化に向いた機能の限定的な他ツールを併用したり、プレゼンテーションや論文発表のためにツールの可視化出力を分かりやすく表現した手書きの図を描くことが多いが、これらは現状で利用されている構造多型の可視化ツールの機能が劣っており IGV のように論文出版に使える程度の見やすさを持っていないことを示している。このため、良いグラフゲノムブラウザの開発が喫緊の課題であった。 本研究では、以前に当研究室で開発した MoMI-Gゲノムブラウザの後継となるグラフゲノムブラウザを開発中であり、ヒトパンゲノム級の巨大なゲノムグラフを表示するWebブラウザベースのグラフゲノムブラウザの PoC を開発した。開発したグラフゲノムブラウザを用いてThe Human Pangenome Reference Consortium がリリースしているヒトグラフゲノムの可視化を行った。MoMI-G とは異なり、タイル状の表示領域インデックスとセマンティックズームを用いることにより、ゲノムグラフ全体のデータ量がどれほど大きくても局所的な表示は高速に行える設計となっている。このブラウザによりゲノム構造多型と質的・量的形質との関係解析や構造多型の解析ツール開発が加速される。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
Webベースのテクノロジーを用いて高性能なアプリケーションを開発できる人材は民間の引き合いが多く生物系のアカデミアには極めて少ない。また、コロナ禍が始まって以来この分野のアカデミア外への人材流出が多く、海外も含めてこの分野の開発は停滞してきている。このような状況にも関わらず、実際にヒトゲノム級の巨大なグラフゲノムをスムーズに表示できるproof of conceptが出来上がったことは喜ばしく、順調に進んでいると言える。また、今後の構造多型解析・グラフゲノムツール解析コミュニティへのインパクトは大きい。
|
Strategy for Future Research Activity |
今後、開発中のグラフゲノムブラウザを PoC レベルから実用レベルにまで実装を洗練させていく。現在は React + Javascript で開発されているが、多人数開発を行いやすいように Vite + React + Typescript の実装に入れ替える。また、バックエンドシステムが Node.js + SQLite で実装されておりスピードに限度があるため、より速い言語やデータベースに差し替えることを検討する。 グラフゲノムブラウザを用いて HPRC のグラフゲノムを表示するにあたっては階層化を行うセマンティックズームが必須であるが、グラフレイアウトアルゴリズムとセマンティックズーム向けの階層化クラスタリングが必須である。これらのアルゴリズムは新規に開発する必要があり、既存のアルゴリズムは適しないことが実験で分かっている。このため、グラフレイアウトアルゴリズムとセマンティックズーム向け階層化クラスタリングの新規アルゴリズム開発に取り組む。 また、グラフゲノムブラウザ以外については、作成した構造多型の解析のためにさまざまなアライメントツールやジェノタイパー、リピート配列の解析ツールなどを開発していく。グラフゲノム上の遺伝子等アノテーションを行うツールが不足しており、アノテーションを行うソフトウェアをどのように設計するべきか検討していく。また、構造多型の疾患関連度を推定するソフトウェアの開発が今後必要であり、どのような要素が必要か検討する。
|