2023 Fiscal Year Annual Research Report
Decoding the environmental adaptation strategies of photo-synthesis system via restoration of ancient proteins
Project Area | Photosynthesis ubiquity: Supramolecular complexes and their regulations to enable photosynthesis all around the globe |
Project/Area Number |
23H04964
|
Research Institution | Nagahama Institute of Bio-Science and Technology |
Principal Investigator |
白井 剛 長浜バイオ大学, バイオサイエンス学部, 教授 (00262890)
|
Co-Investigator(Kenkyū-buntansha) |
嶺井 隆平 長浜バイオ大学, バイオサイエンス研究科, 助手 (20872451)
土屋 裕子 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (30557773)
土方 敦司 東京薬科大学, 生命科学部, 准教授 (80415273)
|
Project Period (FY) |
2023-04-01 – 2028-03-31
|
Keywords | 生命分子計算 / 光合成 / 分子進化 / 機械学習 / 祖先型遺伝子 |
Outline of Annual Research Achievements |
2023年度計画に従い、光合成超分子複合体を構成する遺伝子の配列をデータベースから収集し、多重アラインメントを作成し、分子系統樹を計算するための計算機資源の整備を行なった。具体的には、タンパク質配列アライメント(MSA)を入力として、Iqtree, PAMLを経て系統樹、年代推定、祖先型配列推定を行い結果をアミノ酸変異リストに変換するワークフローを整備して、テストを行なった。ワークフローは正常に動作する状態にあるが、祖先型の年代推定においては結果がキャリブレーションノードの選択に大きく影響する傾向が見られた。現状このワークフローで自動化されていない点は、系統樹のルートの特定およびキャリブレーションノードの特定と年代のアサインの2段階である。これらの自動化は今後検討する。今年度は平行して機械学習のためのデータベース構築を行なった。これらのデータベースは、光合成生物種(現状1.707種の種名、生息域、系統分類などの情報を含む)、光合成複合体サブユニットのアミノ酸配列(29461配列の名称、略称、アミノ酸残基長、帰属するMSA、配列データベースのアクセッションコード、対応する立体構造のPDBアクセッションコードおよび鎖IDなどの情報を含む)、地質学的気候変動(年代、平均気温、CO2濃度、O2ノードなどの情報を含む)、MSA(サブユニット名称、配列数などの情報を含む)などから成る。特にこの研究ではサブユニット間の相互作用の予測を行うので、光合成複合体サブユニット配列の名称を生物分類およびMSAとの連携が容易になるように系統的に定義した。MSAとしては、PSI, PSII複合体サブユニットを中心に現状67(平均配列数426)作成した。今後このmsa数も他班のテーマを踏まえて増やしてゆく予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2023年度実績の概要に述べた様に、当初計画から変更なく概ね計画に沿って進行していると判断した。
|
Strategy for Future Research Activity |
本年は前年度に引き続き、現存する生物の光合成超分子複合体遺伝子を網羅した分子系統および種系統を決定し、分子系統樹に基づいて祖先遺伝子配列を推定し、遺伝子配列に基づき祖先型光合成超分子複合体の立体構造モデルの構築を開始する。特に前年度から領域内協同研究が進行中のLHC(light-harvesting complex), lexA, Fd(ferredoxin) などの課題を優先的に進める。 具体的には以下のi)-iii)を実施し、機械学習のための訓練データの整備を継続する計画である。 i)光合成超分子複合体を構成する遺伝子の配列をデータベースから収集し、多重アラインメントを作成し、分子系統樹を計算する。ここでは全ゲノム配列の決定された光合成生物を網羅して基準系統樹を確定し、基準系統樹に順次その他の生物の遺伝子配列を加える戦略をとる。平行して文献調査により、地質学的気候変動データ (気温・CO2濃度など)を収集しデータベース化する。 ii)分子系統樹と種系統樹を対比することで、分子系統樹ノードのアノテーション(種分化か遺伝子重複か、直系か傍系かなどおよび祖先配列の年代推定を行うようにワークフローを改良する。また、現存光合成超分子複合体の立体構造データなどを利用して最大節約により祖先型複合体のストイキオメトリーを推定する。この過程は次の段階の祖先配列推定の精度に決定的な影響を持つが、自動化が困難でありマニュアルアノテーションが主力になるので、十分な時間をかけて行う必要がある。 iii)分子系統樹に基づき最尤法を用いて祖先型配列を計算し、尤度分布から祖先配列の精度を推定し、どの程度まで過去に遡ることが可能か評価を行う。もしこの段階で十分な精度での再現がでてきない遺伝子がある場合は、標的とする超分子複合体や対象とする年代の見直しを行う。
|