2017 Fiscal Year Research-status Report
Development of novel algorithm for quality control of metabolomics data
Project/Area Number |
17K00416
|
Research Institution | Tokyo Medical University |
Principal Investigator |
杉本 昌弘 東京医科大学, 医学部, 教授 (30458963)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | メタボローム / ソフトウェア / 人工知能 |
Outline of Annual Research Achievements |
メタボロームの研究において分析装置から得られるデータを自動的に解析して、客観的で再現性のある環境を整えることは急務である。現実的に多くのソフトでは自動処理が不十分であるためにユーザがデータごとにパラメータを調整しながら最適化してゆくことが一般的である。申請者は、質量分析装置の中でも特にイオン性代謝物を一斉に測定できるキャピラリー電気泳動・質量分析装置(CE-MS)を対象として、半自動でピーク検出・アライメント・ピーク同定・定量を行いつつ、GUIで品質を確認し、パラメータを調整するソフトウェアを開発し、多くのユーザにマニュアルで最適化したデータを蓄積してきた。本研究では、これら蓄積された多くのデータからユーザがどのような意思決定でパラメータを調整したかのルールを自動学習し、完全自動化を進めることを目的とする。また、その成果を測定装置に依存する部分とアルゴリズム部分に分離して、他のメタボローム解析ソフトでも利用できる汎用的なライブラリとして公開することを目標としている。CE-MSのデータは、液体クロマトグラフィー(LC)-MSやガスクロマトグラフィー(GC)-MSと比べて、サンプル間でイオンの移動がより不規則に非線形に発生し、ピークの形状も正規分布ではなく、サンプルの状態で複雑に変化するために、自動解析が最も難しいと考えられる。このため、CE-MSにて開発するアルゴリズムは、汎用的に他の装置のデータにも汎用化できると考えられる。また飛行時間型(Time-of-flight)-MSの検出器の特徴としてピークのサイズとm/zの絶対値のズレなども発生するため、予め試薬を利用して基礎的なデータも取得し、測定データに発生する歪みを予測してその影響を差し引き、より自動処理の精度を上げるという戦略も同時に取る。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度はこれらのデータの収集と整理とともに、ソフトウェアを既存の機械学習のライブラリと結合させるために、ソフトウェアの改修を行って、外からコントロールできる口を実装した。ユーザがパラメータを調整した、いわゆるゴールとなるデータと、その前のデフォルトパラメータでのデータを集積し、試験的に少数のパラメータで誤差を最小化する試験に取り組んだ。しかし現状ではまだ簡単な評価関数を使っており、今後精度を上げるための工夫が必要である。また、長期的な検体測定では、測定装置の感度や、定量のための試薬のロット感誤差など、様々な要因によりその値が変化する。そこで外れ値がどのようにそのあとの統計解析に影響するか(1)、品質を制御するためのサンプルを入れて、これらのばらつきを補正することで、そのばらつきの影響を減らす方法の検討を行ってきた(2)。
|
Strategy for Future Research Activity |
今後は実際にユーザがキュレーションしたデータと、デフォルトパラメータで動作した結果の差分を評価する評価関数を作り、その差を最小化しつつ、学習済のモデルを用いて新規データの学習を行い、その精度を検証する。これまでにも、単純にピークの面積や高さ、または形状といった評価関数を取り入れたが、測定対象となる検体ごとにピークが検出できないなど、キャピラリーの中のスタッキングコンディションの違いによりピーク形状が大きく変形する問題があり、ピーク形状がガウス分布のように安定する液体クロマトグラフィーなどと違い課題もある。キャピラリーでもピーク形状を表す数理モデルがあるために、このモデルを用いた評価関数を作るなど、複数の手法を試し、汎用性の高い方法を探索する。
|
Causes of Carryover |
本年度では、ソフトウェアを開発するワークステーションと、開発するプログラムを使って大量のデータを処理するサーバーを開発する予定であったが、ワークステーションのみの購入と安価なものでも十分開発が行えた。また、もともと試薬を使った基礎的な測定も実施する予定であったが、こちらはまだ開始できておらず、研究費の使用が予定より遅れている。
|
Remarks |
もともと交流のあるバングラディッシュの統計学部の共同研究者(Hoque Md.Aminul教授)と、博士課程の学生ら数名とデータ解析に関しては共同で研究を実施しており、本研究課題のテーマの一部である、測定データから統計解析実施の間のアルゴリズム開発に関して、論文を執筆し出版に至った。他のテーマでも共同にて研究を実施しており、アルゴリズムの開発後、代表者が開発ソフトウェアに組み込んでゆく予定である。
|