2014 Fiscal Year Research-status Report
機械学習によるタンパク質翻訳後修飾の予測と天然変性領域の機能の解明
Project/Area Number |
26330336
|
Research Institution | Ritsumeikan University |
Principal Investigator |
西川 郁子 立命館大学, 情報理工学部, 教授 (90212117)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 機械学習 / リン酸化 / 天然変性領域 / 進化的保存性 / タンパク質 / サポートベクターマシン / 予測 / 独立成分分析 |
Outline of Annual Research Achievements |
本初年度は、ヒトタンパク質の天然変性領域(IDR)における機能性リン酸化部位の予測に特化して、サポートベクターマシンによる修飾部位の予測を行った。その理由は、進化的な配列保存性が高いドメイン領域に対しては、アミノ酸配列情報のみで十分な予測精度が得られることを既に確認している一方で、IDRにおいては保存度が部位により異なり、リン酸化部位、その中でも機能が明らかなリン酸化部位の保存度がより高いことを確認したためである。なおリン酸化機構の共通性から、チロシンを除き、セリンとトレオニンをまとめて扱った。 部位ごとの保存度の定量化には、ヒトとの進化的距離が異なる複数の脊椎動物種におけるオルソログに着目し、アミノ酸の置換割合を用いた。従来から部位特異的保存度として用いられるposition-specific scoring matrix(PSSM)は配列保存性に依拠しているため、ドメイン領域に対しては有効で予測にも用いられてきたが、IDRに対する有効性は必ずしも期待できない。 そこで双方の部位特異的保存度を用いてIDRにおける機能性リン酸化部位を予測した結果、提案法がPSSMより2%高い精度を得た。また自然置換を考慮するために両者にスコア化を行うと、いずれも精度が2-3%向上した。さらに配列情報も合わせて予測した結果、80%を超える精度となった。いずれにおいても入力する配列長は対象部位周辺15部位程度までが予測に有効であり、ドメインにおける予測と比べて半分程度の近傍域がリン酸化に寄与すると思われる。 リン酸化部位近傍に位置特異的に存在するアミノ酸を調べた結果、P+1などドメインと共通のものも多く見られたが、IDRに特有と思われるものも見出された。配列に対して独立成分分析(ICA)を行った結果、それらのアミノ酸はいずれも独立に出現しており、モチーフ様のものはなかった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度の計画はほぼ達成した。さらに、ドメインに対してもデータを新たに取得した上で、IDRと同様に部位特異的保存度に基づく予測を行い、比較した。 IDRにおけるリン酸化部位のデータを再度最新のUniProtから取得し、タンパク質の相同性に閾値を設けて近いものは排除した上で、IDR上のセリンとスレオニンにおける機能性リン酸化部位を収集した。その中で指定した脊椎動物4種におけるオルソログが揃うものに限定した。部位特異的保存度情報としてオルソログタンパク質5本のマルチプルアラインメント(MA)を予測に用いた。比較としてPSSMも求めた。スコア化の有効性、配列情報を用いた予測との比較や組合せの有効性を確認した。 また統計解析として、リン酸化部位周辺に高頻度で出現する部位特異的アミノ酸を調べた。同時に、その出現の独立性もICAにより調べた。 さらにドメイン領域に対しても同じ方法でリン酸化部位を予測し、配列情報を用いた予測との比較、IDRにおける予測と比較した。 上記の結果から、IDRにおける修飾部位予測に、部位特異的保存性が有効であることが分かり、ドメインとは異なる修飾機構が示唆された。各部位におけるキナーゼの比較などは今後の課題である。上記の結果の一部を国際会議等では発表したが、論文は現在投稿準備中であり作業を急いでいる。
|
Strategy for Future Research Activity |
26年度の成果を論文としてまとめる。ドメインとIDRで異なるリン酸化機構や進化的保存、機能を持たないリン酸化の有無(化学量論的反応仮説との関係)、関与するキナーゼやダイナミクスも含めた修飾機構などに関する考察を行う。また未確認のリン酸化部位、あるいは機能性を予見できるリン酸化部位として、予測結果を公表する。 酸化修飾、ユビキチン化など他のタンパク質修飾にも本手法を適用し比較する。特にIDRにおける修飾部位予測法として確立する。 全ゲノム配列解析が終了した哺乳類の全タンパク質に対して、本手法を適用する。 本予測法を用いて、全ゲノム配列解析が終了した哺乳類の全タンパク質に対して修飾アノテーションを施し、データベース化する。修飾が予測されるが実験的には未確認の部位として公表し、実験的検証に繋げる。
|
Causes of Carryover |
物品費として開発に使用するコンピュータおよび周辺機器の購入や、プログラム開発補助者の謝金を予定していたが、初年度計画の遂行時点では購入などの必要がなかったため、次年度に使用することとした。
|
Expenditure Plan for Carryover Budget |
次年度において物品費、成果発表のための旅費、あるいは論文投稿費などに合わせて使用する計画である。
|