2018 Fiscal Year Research-status Report
Development of novel algorithm for quality control of metabolomics data
Project/Area Number |
17K00416
|
Research Institution | Tokyo Medical University |
Principal Investigator |
杉本 昌弘 東京医科大学, 医学部, 教授 (30458963)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | メタボーローム / ソフトウェア / 人工知能 |
Outline of Annual Research Achievements |
質量分析装置を用いたメタボローム解析を対象とし、全てのシグナルの検出や解釈を行うノンターゲット解析を自動的に行う環境構築に取り組む。特に測定間で再現性がする部分の補正と、これまではユーザがGUI等で品質を評価して精査(キュレーション)してきたようなデータ解析を人工知能に置き換えて自動化することを目標とする。再現性が低下する可能性のある部分として、キャピラリー電気泳動・質量分析装置(CE-MS)における移動時間や、各質量分析装置における定量値の値などを対象とする。これまでに蓄積してきた多数のキュレーション済のデータを用いて、精査の評価関数を設計し、解析結果を制御する変数を自動的に変動させる。本年度は、制御すべき変数の感度解析や、人工知能を組み込むためのソフトウェアの改良などを行った。これまでは液体クロマトグラフィー(LC)とキャピラリー電気泳動(CE)を分離装置として、質量分析装置(MS)としては飛行時間型(TOF-MS)や三連四重極型(QQQ-MS)を用いてきたが、解析対象とする質量分析装置のデータも近年高密度になるために、これらに対応したデータ変換モジュールの開発も実施した。従来通り測定データを全て抽出して後続する解析をすると非効率であるために、測定データのデータ変換時に一定のデータのフィルタリングを行う機能を実装した。更に、ノンターゲット解析をコホート研究などの大規模な検体数で行うための実験とアルゴリズムを融合させたアプローチとして、品質制御用検体(QC検体)を用いて、定量性の再現性が高く、代謝物由来のピークだけを絞り込み、残りの実験体のデータ解析をターゲット解析することによって、既知ピークだけでなく未知ピークも含めた解析が行えるセミノンターゲット解析の方法を開発し、検証した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
約20セットのデータ(各セットには約100検体が含まれる)を用いて自動処理の内容と、その後GUIでユーザがキュレーションした差分を様々なピーク形状のパターン(ピークの左端や右端などのエッジの位置や、ピークの面積等)にて計算を行った。ピークのエッジの検出に関しては、(1)個々のサンプルにおけるユーザが形状から判断する、(2)移動時間や溶出時間の補正後の複数のサンプルデータの重ね合わせによって判断する、という二つの要素の重ね合わせとなる。データの重ね合わせ後にQCサンプル、または、多くのピークが重なるピークの端を答えとして、これらから大きく外れているピークの端を自動的に調整する機能を開発した。人工知能の外部ライブラリに対応するためにデータ解析ソフトのAPIとAPIをコントロールするスクリプトもPython2.0から3.0系列にアップグレードした。また、高密度な測定データとしてOrbitrap Q Exactive Plusのデータを対象としたデータ変換モジュールも開発した。低濃度の標準物質のmixtureの測定データを利用して、拾うべきピークを含むクロマトグラムを抽出し、TOF-MSと同じプロファイルデータでもQQQ-MSと同等の一部のm/zのデータだけを選別して得られる仕組みを開発した。また、QCサンプルの希釈系列を変えて測定したデータからサンプル中のピークで濃度とのピーク面積の間に直線性が得られるピークだけを抽出し、m/z等の関係から代謝物由来と考えられるピークだけを絞り、残りの検体に関しては該当サンプルだけを測定すればよい仕組みを作り、LC-TOFMSにて血漿データを使い、脂質を中心として400物質程度を効率的にデータ解析抽出する方法を検証した。臨床検体における腫瘍組織や脂肪組織の解析も行い、Pathwayにマッピングする一連のフローの実施も行った。
|
Strategy for Future Research Activity |
APIと、APIを制御するPythonのバージョンをアップグレードしたことにより多数の人工知能のライブラリを結合することができるようになった。ニューラルネットワーク等を使ってLC-MSのピーク処理(エッジを決める積分)を自動化する試み(Woldegebried M et al, Anal Chem, 2017)などが報告されており、このような機械学習のライブラリを結合して、同様のアプローチを試みる。しかし、CE-MSの場合、LC-MSよりも更にデータの質は悪く、スタッキングコンディション(分子の分離の原則がLCと異なりサンプルとその周りのバッファーの電気抵抗の違いを利用している)に依存して、ピークの形状がガウス上にもならない。更に測定サンプルごとの移動時間の再現性が低い。後者を、ダイナミックプログラムを利用して補正関数を自動的に作成し、補正する方法は開発した(Sugimoto et al, Metabolomics, 2010)。しかし、大規模なデータの検証ではまだ不十分な点がみられ、ユーザがデータごとにキュレーションをしている。品質制御パラメータの感度解析を継続し、感度の高い変数から自動的に機械学習に修正させ、ユーザのキュレーションの基準を再現した目的関数を最大化する最適化問題に今後は取り組む。ピークの検出部分だけでなく、同様の手法は未知物質の同定(Allen et al, Anal Chem, 2016, Samaraweera et al, Anal Chem, 2018)などにも展開できる。データのプロセッシングだけでなく、その後の解釈部分も引き続き開発を進める。
|
Causes of Carryover |
おおむね計画通り進めてきているが、本申請書の計画段階では考えていなかったセミノンターゲットの方法を考案したために、単なるソフトウェアの開発だけでなく、測定方法のプロトコルとの混合戦略も実施する方法に修正した。これらによって効率的にノンターゲットとほぼ同等の大規模なデータ解析ができ、更にソフト開発も解析品質を高く担保する自動化部分に注力できる。また、質量分析装置の高密度データの出現等もある程度予想はできていたが、従来通りのアルゴリズムでは非効率過ぎて、データ変換時にフィルタリング機能が予想外の開発も出てきたため、これらも従来の計画を変更して対応した。これにより機械学習を使った実際の開発がやや遅れているが、ライブラリの準備やAPIの修正などの環境整備は整えることができた。 次年度も引き続きアルゴリズム開発やその評価を中心に行うが、セミノンターゲット解析のための検証や、検証中に見つかった測定の再現性が悪化する変数の制御用の検証データ(例えばm/zの値を校正するキュレーション後からの実際のサンプルのm/zのずれ)等のための測定を追加にて行う。また、測定方法そのものも従来の測定方法とは異なる高速な測定方法の検討をしており、これに伴い特殊なデータ解析のモジュール開発も必要となるが、検討用の基礎データをとる等で従来と予定が変更となる可能性がある。
|