現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ヘテロ複合体データを複合体データベース:QSbioや,複合体のアセスメント結果を提供するPDBe PISAを利用して取得しようと試みたが,それぞれ問題点があることがわかり,これらの方法には依らないこととした.3番目の方法として,Uniprotに記載されているPDB情報を利用し,ヘテロ複合体のデータを抽出した.Uniprotのそれぞれのエントリーにはアミノ酸配列のどの部分の構造が決定されたのかがPDBコードと供に掲載されている.これのリストを作成し,エントリ全体を3分類した.1) 1つのPDBエントリに対し1つのUniprotエントリが対応するもの→モノマーかホモオリゴマ.これ以外のものがヘテロオリゴマになるが,2) 1つのPDBチェインに対しUniprotエントリが複数あるもの→キメラ.となるので扱いが難しくなる.残りが 3) 扱いやすいヘテロオリゴマ.となる.Uniprotに記載されているPDBについての統計は,1) 119,108エントリ,2) 2,322エントリ,3) 17,464エントリとなった.2)は扱いにくいので,3)で十分な解析ができないと判断した時に利用することとし,当面は扱わないこととした.一方,PDBのmmCIFフォーマットには,PDBより提供されているBiological Unitについてのアノテーション結果が記載されている.これを解析して,author_and_software_defined_assemblyと記載されているものを82,480個抽出した.これと3)のデータのアンドをとり,16,653個のPDBのBiological Unitを得た.
|