研究課題/領域番号 |
22K05924
|
研究機関 | 公益財団法人かずさDNA研究所 |
研究代表者 |
市原 寿子 公益財団法人かずさDNA研究所, 先端研究開発部, 特任研究員 (50362398)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | データベース / 植物 / 系統 / 生育環境 / 表現型 / セマンティクス |
研究実績の概要 |
植物の表現型は、遺伝子型と環境、さらにその両者の組み合わせの相乗効果の影響を受けやすいことが知られており、同じ遺伝子型でも異なる環境においては異なる表現型を示すことがある。この性質をうまく利用できると、既存の系統の生育環境を制御することによって、交配育種に依らずに、意図した表現型を示す作物を生育させる「既存系統の表現型デザイン」が可能となる。交配育種では、結果として得られる次世代を選抜する過程が生じるが、本方法では、当代での選抜が可能であり、結果として育種の高速化が期待できる。近年、複数の系統を複数の環境条件下で栽培し、表現型として現れる系統の特性を評価する報告が多数ある。特に、生育環境が厳密に制御される植物工場を含む施設園芸のデータでは、複数の系統について、複数の温度、湿度、光量、養液などの環境下で観察される形態や代謝産物の違いが表現型情報として含まれる。従って、これらの情報は、生育環境の制御による既存系統の表現型デザインの足掛かりとして活用できると考えられる。しかし、公開されているデータは文献上にとどまっているものが多く、再利用されにくい状態である。 本研究は、文献から系統や生育環境、表現型の情報を抽出してデータベース(以下、DB)化し、交配育種に依らない既存系統の表現型デザインの足掛かりとなるシステムの構築を目的とする。系統、生育環境、表現型の情報をDB化するにあたって、従来からよく使われている関係データベース(Relational DB、以下RDB)と、セマンティックウェブ技術において標準的な形式の一つであるリソースディスクリプションフレームワークを利用したグラフDBを併用して構築している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
植物種名や植物工場で条件検討されることが多い情報の単語やフレーズ(CO2等)を用いて、PubMed(https://pubmed.ncbi.nlm.nih.gov/)を中心に文献検索を実施し、約750件の文献を収集した。次に、PubTator (https://www.ncbi.nlm.nih.gov/research/pubtator/, PubMedのテキストマイニングツール) をはじめとしたツールを利用して、植物種名、系統名、生育環境、表現型の情報を抽出を試みた。自作スクリプトとの組み合わせで効率と精度の向上を図っているが、場合によっては情報の取りこぼしなどが見られた。
|
今後の研究の推進方策 |
文献からの情報抽出での取りこぼしについては、使用ツールの最適な条件設定の検証とともに、使用するツールの変更も検討中である。抽出時の条件と結果の情報を蓄積しているので、これらの傾向の解析も行い活用する。 データを格納するためのシステムは、既存のマシンで試験的に構築し、動作を検証している。R5年度もこの方針で進める。
|
次年度使用額が生じた理由 |
予算の主な用途としてデータ公開用のサーバー購入を計画し、公開データの調整が済んだ段階で購入予定としている。R4年度は、データ生成のための作業を中心に実施し、システムやプログラムの動作検証は、保有していた既存のサーバー上で実施した。このため、次年度以降充てることとなった。
|