研究課題/領域番号 |
21K05993
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
田中 信彦 国立研究開発法人理化学研究所, バイオリソース研究センター, 開発研究員 (10525596)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | マウス / 表現型 / 臨床表現形質 / 個体異常 / 方法論 / 機械学習 |
研究実績の概要 |
本研究の目的は、国際マウス表現型解析コンソーシアム(IMPC)の網羅的な臨床表現形質データに対して、個体単位で多項目の形質に注目することにより、マウス個体の異常を高精度に検出可能な方法論を開発することである。本研究は3ヶ年での終了を予定しており、具体的には、2021年度では、解析用のデータセット作成作業を行い、2022年度にマウスの表現形質異常を高精度に検出する新しい手法を開発し、2023年度にこの手法を基にした「ユーザーが指定した表現形質異常を持つマウスを個体レベルで提示可能なアプリケーション」を開発する。 上述した研究計画をもとに、2022年度では、前年度に作成したモデル構築用データセットを用いて、マウスの表現形質異常を高精度に検出する新しい手法を、基準範囲(reference range)をベースにした手法(個々のマウスに対して、「各測定項目の値が平均値等の代表値からどれほど離れているか」をもとに「異常」の範囲を定義することにより、個々の値が異常か否かを判定するアプローチ)、教師なしの機械学習の手法(完全にデータドリブン(目的変数なし)で、マウス個体をその多項目の表現型発現プロファイルを基に分類するアプローチ)、教師ありの機械学習の手法(例えば、目的変数を雌雄別(F or M)かつ実験区別(対照群:Cont と 変異群:Exp)の4種類のカテゴリ(F_Cont 、F_Exp、M_Cont、M_Exp)に分類し、これらを、個々のマウスの表現型発現プロファイルを基に、精度良く分類可能な条件を検討するアプローチ)で検討した。結果として、「基準範囲をベースにした手法」と「教師なしの機械学習の手法(具体的には、教師なしランダムフォレストによる全個体間の関係性データのUMAP及びPHATEによる可視化)」を組み合わせた、マウス個体の異常を高精度に予測可能なワークフローを開発した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題の主たる目的は「マウス個体の異常を高精度に検出可能な方法論の開発」であり、3ヶ年で終了予定の課題である。2022年度では、次年度に開発する「ユーザーが指定した表現形質異常を持つマウスを個体レベルで提示可能なアプリケーション」のフレームワーク(ワークフロー)に相当する、マウスの表現形質異常を高精度に検出する新しい手法の開発作業を完了させた。また、研究計画に提示されていないが、次年度に予定されているアプリケーションの開発作業を独自で行い、そのプロトタイプを開発した。これにより、2023年度に予定している「ユーザーが指定した表現形質異常を持つマウスを個体レベルで提示可能なアプリケーションの開発準備作業(仕様書の作成)」及び、この仕様書を基にした本アプリケーションの開発へ順調に進むことができる。
|
今後の研究の推進方策 |
2022年度では次年度のアプリケーション開発のためのフレームワーク(ワークフロー:方法論)を開発することができた。したがって、当初の予定通りに、次年度の研究を進める予定である。即ち、2023年度では、このフレームワークをもとにした「ユーザーが指定した表現形質異常を持つマウスを個体レベルで提示可能なアプリケーション」を開発する。
|
次年度使用額が生じた理由 |
(理由) 本研究では大量のデータを国際マウス表現型解析コンソーシアム(IMPC)のデータストレージからダウンロードして解析に利用している。最近、このIMPCのデータストレージの方で大幅な仕様変更があり、SQLのダンプファイルでの提供から、Apache Solrシステムのダンプファイルでの提供に変わった。このシステム変更に伴い、自前でこのシステムを構築して、データ内容の確認・整形等の調査検証作業を行う必要ができた。そのためのハードウェアとして、デスクトップのワークステーションを前倒し支払い請求により購入したが、当初の想定より安価で購入できたため、次年度使用額が生じた。 (使用計画) 前年度の繰越金は、最終年度に予定するアプリケーションの開発費として使用する予定である。また、開発中のアプリケーションのプロトタイプのホスティングサービス費も前年度と同様にその他の経費として計上する。
|