研究課題
基盤研究(C)
本年度は、解析用のシステムの構築を行った。PC上にゲノムが決定された昆虫7種の全タンパク質からなるデータベースと細菌12種の全タンパク質からなるデータベースを構築した。これらに対して、得られた昆虫ゲノムデータを問い合わせ配列として、Blastによる相同性検索が効率的にできるシステムを構築した。課題は問い合わせ配列をどのようなものにするかである。現在は2つの方法を採用している。1つは、ゲノムの塩基配列を1000塩基ずつ取り出して問い合わせ配列にしたものとである。500塩基を重なるようにして、すべてのゲノムDNAを網羅している。もう一方は、180塩基以上のORFを問い合わせ配列にしたものである。読み枠が存在すれば、検出力は高い。このようにして構築した各問い合わせ配列について、2つのデータベースに対して相同性検索をかけ、細菌の配列に対してより高いスコアを示し、統計的にも有意な相同性があったものを候補遺伝子とした。この第一候補が得られたゲノムの配列を検討し、Contigの断片がすべて特定の細菌由来である場合は、共生細菌ゲノムあるいは混入ゲノムの可能性が高いので、この段階で、そのContig上の候補遺伝子は候補から外した。残ったものについて、NCBIのnrデータベースに対して相同性検索を行い、やはり最も相同性が高い配列が細菌であるもののみを候補遺伝子として残した。これらの一連の作業の自動化がおおよそ完成した。また、ある昆虫のゲノムデータを使って試した結果、構築したシステムは問題なく稼働した。今後の課題は、混入ゲノムであるかどうかの判別を、実験的に行う前にゲノム決定を行ったリードから自動的に探索することである。次世代型シークエンサから得られたリードを用いて、このような判定を行うアルゴリズムを検討中である。
2: おおむね順調に進展している
システムの構築は概ね順調である。混入ゲノムとの区別の自動化を早期に行う必要がある。目処をつけていたゲノム配列データが得られていないので、別のデータで解析を行うことにした。
予定通り推進していく。また、混入ゲノムとの区別の自動化も推進する。
すべて 2013
すべて 雑誌論文 (2件) (うち査読あり 1件)
Plos One
巻: 8 ページ: 1-5
10.1371/journal.pone.0082612
生物の科学 遺伝
巻: 67 ページ: 447-452