種分化によって分岐した遺伝子間に定義されるオーソログ関係は、比較ゲノム解析の基盤となる情報であり、オーソログの検出を正しく行う手法の開発は重要な課題である。本研究では、これまでの研究を拡張して様々な改良・開発を行った。まず、増え続けるゲノム・プロテオームデータに対応するため、データベースを整備する必要があった。オーソログクラスタリングプログラムを様々なデータセットに対して適用できるようにするために、公共データベースから必要なデータをダウンロードして管理するパイプラインを構築した。また、クラスタリング可能な生物種を抽出するために生物分類を階層的に探索できるシステムを開発した。大規模なオーソログクラスタリングに対応させるために、クラスタリングプログラムを改良して、メモリの使用効率を高めるとともに、ドメインが分断しすぎないようにした。また、オーソログ解析システムに必要なプログラムを集めたDockerコンテナを開発した。さらに、クラスタリング結果をどのように表現するかというデータモデルを策定し、RDFでデータベースを構築して、様々なアプリケーションから利用可能にした。SPARQLによる論理的なクエリ作成も行えるようにするとともに、Stanzaと呼ばれるフレームワークを用いてクエリの結果を可視化するプログラムを開発した。特に、特定の遺伝子についての保存プロファイルを表示するアプリケーションを開発し、他のプログラムからも利用できるようにした。
|