研究概要 |
農芸化学のファイトレメディエーション分野では土壌汚染と農作物への影響や植物を用いた土壌改良などの課題がある.ウェット(実験系)研究では次世代シーケンサーなどの測定装置のハイスループット化や解析手法の高度化が進んだことにより,実験結果がビッグデータとして出力されるようになった.一方,ドライ(理論・計算系)研究では特定領域のデータを再利用可能な形でアーカイブ化し,流通性を高め解析を容易にすることが情報爆発時代のビッグデータを取り扱う上で重要となる. 初年度はファイトレメディエーション・データベースのバックエンドを開発した.まず,関連する論文を生命科学論文データベースから取得し,データベースの設計やユーザーからのクエリ(質問)を想定した開発に必要な語彙を抽出した.そのために標準的なオントロジーと紐付けるパイプラインプログラムを開発・公開した. また,タンパク質-リガンド結合部位ペア組合せデータベースをRDF(Resource Description Framework)化し代表的な立体構造データベースとLOD(Linked Open Data)化した.原子間距離のデータをタンパク質立体構造および低分子化合物データベースの知見でアノテーションすることができた.また,タンパク質配列データベースをLODに加えるために,クラウド環境でのトリプルストアのベンチマーク計測により大規模なグラフデータを運用するための指標を得ることができた.これはファイトレメディエーションにおけるオミクスのアプリケーションを開発していく上で有用性が高い.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
ファイトレメディエーションのドメインオントロジー作成に向けて,今年度は,データモデル設計者の興味に応じた軽量なドメインオントロジーをPubMedクエリから自動形成し,OWL(Web Ontology Language)で出力するためのツール群とパイプラインを開発した.さらにLOD(Linked Open Data)を用いたファイトレメディエーションのためのオミクスデータベースの開発にも着手し,一部を既に利用可能にしている.特にタンパク質-リガンド結合サイト組合せデータベースのオープンデータ化については,計画以上に顕著な進展が見られた.
|
今後の研究の推進方策 |
2年度目は,これまでに開発したバックエンド(データベース)のデータをより充実させるとともに,それを元にファイトレメディエーションのプロテオミクスに関するウェブアプリケーションを開発し公開する.ソフトウェアのユーザーエクスペリエンスを向上させるために,定期的に実験系研究者とディスカッションを重ねながらアジャイルソフトウェア開発手法で進めていく.
|