2016 Fiscal Year Research-status Report
全人類のゲノム変異を包括的に扱うリファレンス・ゲノム・グラフのデータ構造の研究
Project/Area Number |
16K12531
|
Research Institution | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
Principal Investigator |
片山 俊明 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイエンス統合データベースセンター), データサイエンス共同利用基盤施設, 特任助教 (60396869)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | reference genome graph / semantic web |
Outline of Annual Research Achievements |
平成28年は、リファレンス・ゲノム・グラフを構築するツールvgをサーバのDocker環境で構築し、必要に応じて最新版のソフトウェアに更新しながら実行できる環境を整備した。これをもとに、サンプルデータを用いた基本的なゲノム・グラフ構築とその可視化手順を検証した。6月には、ライフサイエンス統合データベースセンターの主催で国際開発者会議BioHackaton 2016を日本で開催し、海外から参加したvgの開発チームと連携してリファレンス・ゲノム・グラフをセマンティック・ウェブで用いられるResource Description Framework (RDF)のデータにシリアライズする方法を検討し、vgツール内に内部データ構造からRDF形式への変換機能を実装した。8月にはvgを開発しているカリフォルニア大学サンタクルツ校を訪問し、開発者の1人であるBenedict Paten博士らとミーティングを行って、vgの最新の開発状況や今後の方針について情報収集を行った。さらに、ヒトの全ゲノム配列と、公開されている1000人ゲノムのVCFデータでリファレンス・ゲノム・グラフを構築し、できあがったグラフをRDF化したものをVirtuosoデータベースにロードする実験を行った。このデータは5時間弱で前述のトリプルストアに格納され、このデータに対するSPARQLクエリが実行できることを確認した。また、10月にはバンクーバーを訪れ、米国人類遺伝学会(ASHG)と併催されたGlobal Alliance for Genomics and Health (GA4GH)の会議に参加して開発の進捗を確認するとともに、RDF化されたグラフに対するSPARQLクエリを検証、今後GA4GHとのRDFでの連携について協力体制を協議した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
国際学会や相互訪問などによりvgの開発チームと国際連携ができる信頼関係と体制を構築することができた。これにより、リファレンス・ゲノム・グラフのRDF化がvgの開発チームとともに進められたことで、標準となるグラフをvgで構築し、それをもとにRDFを生成して、SPARQLクエリで検索できることまで検証できた。さらに、vgの実行環境をサーバ上に構築し、ヒトゲノム全体についてもグラフを生成できることを検証した。一方で、完全版のリファレンス・ゲノム・グラフの構築にはデータの標準化、グラフの標準化、ツールの改良などいくつか課題が残っていることが分かったため、当面は現状での公開データと開発バージョンのツールを用いて、データ構造とアプリケーション開発のノウハウを検討している。とくに、当初想定していたGA4GHのGenomics APIのデータ構造とvgのデータ構造は、複雑さや内容に差異があることが分かり、ここではvgのデータをRDFで表現し、それを扱う検索クエリを開発対象とすることにした。
|
Strategy for Future Research Activity |
ヒトの染色体レベルで複数のリファレンスを1つのグラフとして扱えるかどうかという大規模な実験はまだ研究段階にあるため、平成29年に公開された日本人のリファレンスゲノムもグラフ化の対象とし、従来のリファレンスゲノムと日本人のリファレンスゲノムをグラフによって統合的に扱うことができるかどうかを検証する。さらに、このようにして構築したリファレンス・ゲノム・グラフに内在するゲノムの変異情報と、外部データベースに含まれるゲノム変異とそれに関連する疾患などの情報をセマンティック・ウェブによって統合するための技術開発を進める。これらがうまく扱えるようであれば、RDFで統合したデータから必要な情報を取得できるAPIの開発と公開を行い、最終的にはその結果を可視化するアプリケーションの開発に取り組む。
|
Causes of Carryover |
当初予定では研究開発のための高性能パソコンを購入予定であったが、リファレンス・ゲノム・グラフの開発には大規模なメモリが必要であり、共同利用のサーバがこのために利用できることになったため、購入を見送ったから。
|
Expenditure Plan for Carryover Budget |
本研究の執行には国際連携が重要であるため、訪問・招聘費用として活用することで研究の促進を行うほか、成果公開のためのソフトウェア開発費などに使用することを予定している。
|