研究課題/領域番号 |
20J22439
|
研究機関 | 東京大学 |
研究代表者 |
末竹 裕貴 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2020-04-24 – 2023-03-31
|
キーワード | バイオインフォマティクス / データ解析 / ワークフロー言語 / ワークフロー実行システム / ユーザインターフェース |
研究実績の概要 |
本年度は、主にワークフロー実行システムの構築を行った。バイオインフォマティクス分野では、ゲノムデータやヘルスケアデータに対し、様々なツールを組み合わせたデータ解析を行うことで生物学的知見を得る。昨今、これらのデータ解析手順を、ワークフロー言語と呼ばれるDomain Specific Language (DSL)を用いて記述することで、解析の効率化やワークフローの共有性の向上を試みられている。しかし、様々なワークフロー言語で書かれたワークフローを実際の解析環境において実行することは、(1)実行環境を整備するコストや、(2)ワークフロー言語ごとの仕様や実行方法を理解するコスト、といった問題から困難である。このような背景の下、ゲノムデータやヘルスケアデータの標準・共有化を推進する国際コンソーシアムであるGlobal Alliance for Genomics and Health (GA4GH)が定めているWorkflow Execution Service (WES) API定義に準拠し、様々なスキルレベルの利用者がワークフロー言語ごとや実行環境ごとの違いを意識することなくワークフローを実行するシステムを開発した。構築したシステムは一般公開されており、国立遺伝学研究所のワークフロー実行システムとして、試験導入・運用が行われている。今後は、より実運用に即した機能の追加や論文の公開を行う予定である。また、データ解析に付随するトピックとして、(1)データ解析の動作テストの構築・実行、(2)解析データの公開・共有化、(3)解析ワークフローやツールの公開・共有化、が挙げられる。今後は、今回研究を行ったワークフロー実行の一般化を基に、これらのトピックに取り組むことで、システムを改良していく予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究背景より、実際にデータ解析を行っている研究者に対するインタビューやレビューが不可欠である。しかし、昨今のコロナ禍という状況の下と、様々なカンファレンスやハッカソンが中止やオンラインでの開催を余儀なくされた。これにより、研究者間の交流の機会が減ってしまったため。
|
今後の研究の推進方策 |
次年度は、データ解析のテスト手法を一般化する技術に取り組む予定である。
|