2022 Fiscal Year Research-status Report
Project/Area Number |
22K06107
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
平田 邦生 国立研究開発法人理化学研究所, 放射光科学研究センター, 専任技師 (20373524)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 機械学習 / 結晶学 |
Outline of Annual Research Achievements |
研究の目的はタンパク質結晶の自動測定へ即時フィードバックが可能な回折強度データのクオリティ判定を実施する人工知能の開発である。システムは自動測定により得られた大量のデータを即時解析し、できるだけ早い段階でのデータクオリティの定量的評価を目指している。このため、まず教師あり機械学習を実施し、指標となりうるデータ評価ポイントの選定を実施する予定であった。今年度は、研究実施計画書にある通り、教師ありの機械学習のために、標準試料結晶であるソーマチン、サーモライシン、計画書に無かったがトリプシンの回折データを大量に収集し、データ処理を実施した。結果として、機械学習に進む前段階にデータをフィルタリングすることの有用性に予期せず気づくことができた。具体的には2点ある。1点目は「明らかに低品質なデータの混在」をフィルタリングすることである。より信頼度の高い機械学習のモデルパラメータを得るためには、できるだけ他のアノーマルデータを排除したほうが良い。この観点から実際に得られたデータの中で分解能が著しく低いデータについては早い段階で検討から除外することが望ましい。当初想定していなかったことだが、このフィルタリングの成績も実験へのフィードバックに非常に有用なステップであることが判明した。2点目はより詳細なフィルタリングとなるが、構造多型に関連するものである。タンパク質結晶は同じもののように見えても含まれる分子の構造が微妙に異なる場合があり、それらは多くの場合軽視され、特に自動測定では気づけ無いことがよくある。今年度、自動データ処理システムを利用した階層的クラスタリング(特に強度のCCを利用するもの)を利用すれば構造の微小な違いを分類することができることを見出し、それについて現在論文化を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度、申請書の計画どおり、ソーマチン、サーモライシンなどの標準結晶試料から位相決定に必要な回折データを大量に収集した。それらのデータは処理を実施し、回折強度の統計データを抽出するためのソフトウェアについてブラッシュアップも行った。この過程の中で、大きな結晶の内部の不均一性(格子定数のばらつき、回折能のばらつき)による「理想的ではない」振る舞いをするデータがあることに気づいた。わかりやすい例で見ると結晶の両端から得られるデータは回折能が低く、データ精度が低いことが多い。申請した機械学習ではこのような理想的ではない回折データの抽出および排除について予期していなかったが、以降のデータ精度の議論に非常に重要なデータ分類ステップであると認識し、検討を重ねた。現時点ではまだ適切なフィルター法が見いだせていないが、「明らかな」データクオリティの低さに従って「以降精度検討に利用するかどうか」を判定することの有用性に気づくことができた。関連して、結晶構造の多型性に関する課題にも取り組みました。階層的クラスタリングを使用して、構造多型の抽出を行い、より純度の高いデータ解析が可能になることを見出した。この技術を機械学習の基盤として応用することで、申請した内容に加え、結晶の物理的なクオリティの定量化・分類を実施し、より深い洞察が得られると期待できる。 以上のように、予期せぬ問題に直面しながらも、機械学習の基盤を構築することに成功した。
|
Strategy for Future Research Activity |
計画上には若干の遅れがあるものの、回折データを処理し、何段階かに分けたクオリティ評価を実施するというより高機能なシステム構築に向けた情報収集と開発をすすめることができている。今年度は、まずR4年度に見出した2種類のフィルタリング(回折強度の明らかな品質の違い、階層的クラスタリングによる微小な構造の違いの分類)を実施し、残された高品質かつ構造純度の高いデータを利用した機械学習パラメータの推定を行っていく。計画書に書いたとおり、これには微弱な回折強度シグナルの検出に有用な位相決定(SAD法)を実施し、位相決定の可否・正解とのCCなどを「学習データの答え」として与えることで、古典的な回折強度データの統計値や他の統計値を利用した線形回帰モデルの構築を実施する。
|