Project/Area Number |
22K06107
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 43020:Structural biochemistry-related
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
平田 邦生 国立研究開発法人理化学研究所, 放射光科学研究センター, 専任技師 (20373524)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 結晶構造解析 / 放射光構造生物学 / 自動測定 / 機械学習 / 結晶学 / タンパク質結晶構造解析 |
Outline of Research at the Start |
本研究・開発での根幹になるのは(系統的に)測定したデータ群とそのデータ処理結果の強度統計値、さらにそれらを利用した構造解析の結果を学習データとして「教師あり機械学習」を実施し、将来測定した回折データから構造解析の精度を予測することができるモデル(以下、精度予測モデル)を構築することである。精度予測モデルを構築し、その予測精度を既存データで評価、構築方法の再検討を繰り返してモデルを高度化していく。
|
Outline of Annual Research Achievements |
最終目標である線形回帰モデルの説明変数のピックアップを信頼度高く実装するために、前年度から検討を開始した階層的クラスタリングを利用した構造多型解析の高度化をすすめた。今年度はこれについて論文を出版することができた。多数の結晶から得たデータセットをマージして一つの結晶構造因子を得る場合、それぞれの強度の相関係数を計算しそれらを機械学習の一つである階層的クラスタリングにより整理することで、似ている構造因子どうしをある程度グループ化することができる。これを実施することにより、これまで「ただ一つだけ構造を得る」ために収集していた大量データを、構造の違いで分類することができるということを見出した。この分類を実施することでそれぞれのグループごとに構造因子を比較することができ、より意味のある純度の高いデータを利用した線形回帰モデルが検討できる準備が整った。さらに今年度は大量なデータ収集を実施したことによる構造因子にどのような系統的な影響が生じるか調査を進めた。過去の論文報告や、これまでのSPring-8ビームラインBL32XU運用の実績から、より大量データをマージして結晶構造解析を進める場合、単独で収集したデータよりも統計的な分解能が高く、さらに構造解析における微小構造の違いの検出がしやすくなるなどの効果が得られていた。この効果について、膜タンパク質2種類、ミクロンサイズの微小結晶、などを利用してマージする結晶数が増えた場合に、分解能、構造精密化の統計値、また、構造情報の多寡を評価するために、非常に微弱な異常分散差シグナルを定量化し、マージ数に対してそれらがどのように変化するかを調査した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
大量データを利用したモデル化については一部、プログラムによる実装を進めたが冗長度を考慮した結晶学的な統計値で、構造情報の多寡を定量化することが可能であろうことまでは明らかとし、この点をフィードバックに活用した自動測定スキームについては大雑把な設計構想を構築することができた。しかし、結局のところ、大量データをマージすることによって得られる最終構造は今年度出版した階層的クラスタリングを利用する方法を利用してデータを同型なものとしてグループ化することが肝要であるし、また、そのグループを構成するデータ量が変化することで最終的に得られる構造情報の多寡は左右されることが明らかとなってきた。そこで、今年度は実用的なリアルサンプルや大量に準備しやすい試料を利用してデータ量が増えることで得られる結晶学的な構造情報がどのように増えてくるかを調査した。GPCR膜タンパク質であるアンジオテンシン受容体(II)、Znイオンチャネルタンパク質、3-5ミクロンサイズの結晶の多角体タンパク質に関してsmall wedge synchrotron crystallography(以下、SWSX法)におけるデータ量と構造情報の関係を系統的に調査した。詳細な結果については論文が出版された後に改めて報告するとして、過去の別グループの論文報告にあったとおり、large wedge結晶構造解析についても冗長度を高めることによって微弱な異常分散シグナルを的確に捉え、位相決定に利用するS-SAD法を促進する測定戦略が存在する。これらの結果と同様に大量なデータを利用したほうが構造解析の分解能を高め、モデル構造の精度を高め、微小構造のトレースにも有利であることが明らかになりつつある。
|
Strategy for Future Research Activity |
前年度の計画通り、微弱な回折強度シグナルの検出に有用な位相決定(SAD法)を実施し、位相決定の可否・正解とのCCなどを「学習データの答え」として与えることで、古典的な回折強度データの統計値や他の統計値を利用した線形回帰モデルの構築についての検討を実施することができた。今後は、それらのモデルを利用したフィードバックを自動測定に取り込み、知能を有するシステムの構築を実施する予定である。それに加えて、大量な結晶からの部分データをマージすることによって構造解析を実施する場合の分解能、構造情報の多寡の予測を加味し、位相決定・微細な構造の精密解析を目指すうえで、必要なデータ量(結晶数)などの定量化、それが実現できるかどうかの判定機能を測定システムに実装するなどを実施していく。
|