2014 Fiscal Year Research-status Report
メタゲノミック診断用データベースの構築と高速解析技術の開発
Project/Area Number |
26870328
|
Research Institution | Osaka University |
Principal Investigator |
元岡 大祐 大阪大学, 微生物病研究所, 特任研究員(常勤) (10636830)
|
Project Period (FY) |
2014-04-01 – 2016-03-31
|
Keywords | 感染症 |
Outline of Annual Research Achievements |
近年、感染症が疑われる臨床検体からの網羅的病原体探索法として、次世代シークエンサーを用いたメタゲノム解析法が試みられている。本手法は、臨床検体中の核酸の網羅的解読と解読した配列の全核酸配列データベースに対する相同性検索から成る。しかし、シーケンサーから得られる配列数は莫大な数であり、相同性検索は大型並列計算機を用いても、数週間も要する。そのため本研究では、病原体探索用データベースの構築と相同性検索法の改良を行い、より迅速な病原体同定法の確立を目指した。 本年度は先ず、病原体探索用データベースの構築を行った。ヒトの臨床検体中に存在しないマウスなどの生物種をデータベースから排除し、病原体と成りうる細菌、ウイルス、真菌、原虫およびヒトの情報のみを選別した。また”Uncultured bacterium”などの名前で登録されている曖昧な系統分類情報しか持たない配列も削除した。 次いで、高速な系統分類解析法の開発にも取り組んだ。BLAST検索の結果からは相同配列の固有コード、遺伝子名や一致度などの情報は得られるが、どのような病原体がどの程度見つかったかを直ちに知ることはできない。現在は、固有コードを系統分類データベースと照らし合わせる作業が必要であるが煩雑な作業であるというだけでなく、時間もかかる。そこで、遺伝子名を系統分類情報(界・門・網・目・科・属・種)に変更した。これらをまとめて最終的なデータベースとして構築した。その結果、核酸配列データベースのサイズは、全データベースの4分の1のサイズに、アミノ酸配列データベースのサイズは、3分の2のサイズに減少した。また、BLAST検索後にたった1つのコマンドで系統分類解析を行えるようになった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、病原体探索用データベースの構築と高速な系統分類解析法の開発を目指した。 得られた病原体探索用のデータベースは、核酸配列データベース登録数が当初の4分の1に、アミノ酸配列データベース登録数が、3分の2に減少した。本データベースの作成により、核酸配列を対象とした相同性検索では従来の4倍早く計算ができるようになった。これまで2週間要した計算であれば、3~4日で済むようになり、より現実的な時間内で解析できるようになった。 また、従来はBLAST検索後の系統分類解析は、時間を要するというだけでなく、ある程度のプログラミング処理が必要であり、敷居が高い作業であったが、今回構築したデータベースを使用することで、たった1つのコマンドで系統分類解析が完了するようになった。また、従来1時間を要したデータ量の系統分類解析は1分以内に終わらせることが出来た。 さらに、データベースを常に最新の状態に保てるように、これらの作業を自動で行えるパイプラインの構築を行った。以上より、研究課題に対して本年度は、概ね順調に研究計画が進んだ。
|
Strategy for Future Research Activity |
今後の研究の推進方策としては、種々の卓上型シークエンサーによるメタゲノミック診断法を実行し、データの質、病原体検出効率や解析法の比較検討行う。現在、主に使用しているMiSeqは卓上型モデルの中では最も多いデータ量を算出できるが、シークエンシングに約1日要する。他に、LifeTechnologies社IonPGMやRoche社GS Jrを使用できる環境にあるが、MiSeqより解析時間は短いがデータ量は少ないなど、三者三様の性質があり、臨床検体から病原体同定を行う上でどの機種が適しているかは不明である。これまでにMiSeqを使用してきたため、今後の研究では主に他の2機種を用いる予定である。 また、臨床検体の大部分を占める宿主由来核酸の高速判別法を開発し、これらの結果を基にデータ解析を高速かつ容易に実行できるパイプラインを作成する。糞便を除く臨床検体は、大部分を宿主(ヒト)由来核酸が占める。本研究では、メタゲノムデータ中のヒト由来核酸を高速で判別するため、まず全データをヒトゲノムに対してマッピングし、マッピングされなかった配列のみ、つまりヒト由来ではない核酸のみを病原体探索用データベースに対して相同性検索する。マッピング法は、非常に相同性が高い配列に限られるがBLAST検索の100倍以上早く、ヒト由来核酸か否かの判定が可能である。Bowtie2やBWAなどのソフトウェアが多数公開されており、各シークエンサーから得られたデータに対してソフトウェアの検討を行い、高速にヒト由来核酸を判別する方法を決定する。さらに、臨床応用の早期実現を目指し、病原体探索用データベースや解析パイプラインを専用のWebページにて公開するように取り組む予定である。
|
Research Products
(3 results)
-
-
[Journal Article] Complete Genome Sequence of Ureaplasma parvum Serovar 3 Strain SV3F42014
Author(s)
Wu HN, Nakura Y, Motooka D, Nakamura S, Nishiumi F, Ishino S, Kawai Y, Tanaka T, Takeuchi M, Nakayama M, Fujita T, Yanagihara I
-
Journal Title
Genome Announc
Volume: 2
Pages: e00256-14
DOI
Peer Reviewed
-
[Journal Article] Performance comparison of second- and third-generation sequencers using a bacterial genome with two chromosomes2014
Author(s)
Miyamoto M, Motooka D, Gotoh K, Imai T, Yoshitake K, Goto N, Iida T, Yasunaga T, Horii T, Arakawa K, Kasahara M, Nakamura S
-
Journal Title
BMC Genomics
Volume: 15
Pages: 699
DOI
Peer Reviewed / Open Access / Acknowledgement Compliant