研究課題
基盤研究(C)
本年度の目標である、「UCSCゲノムデータベースにおいて、各種テーブルがMySQLに収載されているか、あるいはBigWig形式の連続データとして別ファイルで提供されているかをユーザーが意識せず一貫したAPIでアクセス可能にする」の実現のため、TogoWS http://togows.org/ に対するBioRubyプラグインRuby UCSC APIの組み込みを行った。連携研究者とともにREST APIの設計を行い、Ruby UCSC APIが対応する全てのテーブルについて複数条件(例えばゲノム上物理位置範囲)を組み合わせた検索と、タブ区切り文字列あるいはJSON形式での結果取得が可能になった。BigWig形式のファイルについては初回参照時に内部でキャッシュされ、bigWigInfoコマンド、bigWigSummaryコマンドの結果を取得することが可能になった。特筆すべき機能は、サポートされた生物のリファレンス配列の任意部分を単純かつ高速に取得できることである。この機能は広くユーザーの利便性を高めると思われるUCSCゲノムデータベースのヒトリファレンスは現在hg19からhg38の移行が行われている。Ruby UCSC APIは、すでにhg38の対応を行い https://github.com/misshie/bioruby-ucsc-api および http://rubygems.org/gems/bio-ucsc-api にて公開している。基本的に新規のテーブル追加には自動的に対応されるが、今後も例外的なテーブルについては順次対応を進めるとともに、ユーザーからのフィードバックを受けながら機能拡充を続ける予定である。
2: おおむね順調に進展している
当初計画していたTogoWSのUCSCゲノムデータベース対応は、ほぼ達成することができた。今後ドキュメントの整備をすすめる必要がある。Ruby UCSC APIの機能拡張については、BigWigファイルのキャッシュ対応はまだできていない。これについては、多くのBigWigファイルの少数の部分を参照する場合、ローカル環境よりむしろTogoWSの使用によって達成できたと考えられる。また、Ruby UCSC APIの新規データベース対応をすすめることで同時にTogoWSの機能拡張につなげることができるようになっている。
ヒト全ゲノムシークエンシングの統合アノテーションワークフローの構築にむけて最も難しい点は、膨大なデータベースの中から、必要なアノテーションデータの組み合わせを見つけることである。これを解決するための今後の方策として、セマンティックウェブ技術をUCSCゲノムデータベースやそれに含まれるENCODEデータに対して応用することを予定している。UCSCゲノムデータベース/ENCODEデータのRDF化をすすめることで、最終的なワークフローの構築を目指す。
本年度においては、TogoWSやRuby UCSC APIなど基盤となるデータベース利用環境の整備が中心となり、実際の確認/実証実験に入ることは無かったため、次年度使用額が生じた。前年度をふまえたデータベース環境構築のための打ち合わせ・発表、計算機環境整備、およびワークフローの実証実験に用いる予定である。
すべて 2014 2013 その他
すべて 雑誌論文 (4件) (うち査読あり 3件) 学会発表 (3件) 備考 (3件)
Journal of Human Genetics
巻: - ページ: -
10.1038/jhg.2014.9
Gynecologic Oncology
巻: 132 ページ: 715-721
10.1016/j.ygyno.2014.01.029
Prenatal Diagnosis
巻: 34 ページ: 345-349
10.1002/pd.4307
医学のあゆみ
巻: 245 ページ: 345-351
http://togows.org/
https://github.com/misshie/bioruby-ucsc-api
http://rubygems.org/gems/bio-ucsc-api