研究概要 |
昨年度はタンパク質の全長を、構造をつくるドメイン領域とつくらない不規則領域に2分する方法(DICHOT)の開発に成功した。この方法は、ドメインと不規則領域の他にどちらとも判定できない未知領域が生じてしまうという、従来法の欠点を克服する方法であり、さらに構造既知のドメインに加えて構造未知(実験的に構造未決定)のドメインの位置を(結果的に)予測できるという利点がある。昨年度は、方法論としてのDICHOTを開発し、テストケースとしてヒト転写因子に適用した。ヒト転写因子については以前に従来法で解析した実績があるので、その結果と比べることができ、DICHOTの優位性を示すことができた。以上の成果を踏まえ、今年度はいよいよ、DICHOT法をヒト全タンパク質に適用した。ヂータセットはUniProtデータベースに記載されているヒトタンパク質の配列20,333本を用いた。DICHOTのアルゴリズムは咋年のものと基本的に同じだが、転写因子とは異なり、全タンパク質を対象にすると膜タンパク質や分泌性タンパク質を取り扱う必要があるので、新たな判定ルールをいくつか加えた。DICHOT解析の結果、ヒト全タンパク質のアミノ酸残基あたりの内訳は、不規則領域34%、既知構造のドメイン53%、未知構造のドメイン13%となった。これまで、未知構造ドメインの割合を予測した例はない。また、タンパク質を細胞内局在性に従って分類し、カテゴリー別に比較すると、核に存在するタンパク質で不規則領域の割合がもっとも高く(47%)、次いで細胞質、膜タンパク質、分泌性タンパク質の順で、もっとも割合の低いのはミトコンドリアのタンパク質(13%)であった。これらの順位は先行研究の結果と一致しているが、各カテゴリーの明確な割合を示したのは初めてである。これらの成果をまとめた論文を現在作成中である。
|