研究課題/領域番号 |
21K05993
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
田中 信彦 国立研究開発法人理化学研究所, バイオリソース研究センター, 開発研究員 (10525596)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | マウス / 表現型 / 臨床表現形質 / 個体異常 / 方法論 / 教師なし機械学習 |
研究実績の概要 |
本研究の目的は、国際マウス表現型解析コンソーシアム(IMPC)の網羅的な臨床表現形質データに対して、個体単位で多項目の形質に注目することにより、マウス個体の異常を高精度に検出可能な方法論を開発することである。本研究は3ヶ年での終了を予定しており、具体的には、2021年度では、解析用のデータセット作成作業を行い、2022年度にマウスの表現形質異常を高精度に検出する新しい手法を開発し、2023年度にこの手法を基にした「ユーザーが指定した表現形質異常を持つマウスを個体レベルで提示可能なアプリケーション」を開発する。 上述した研究計画をもとに、2021年度では、最初に、国際マウス表現型解析コンソーシアム(IMPC)のウェブサイト(http://ftp.ebi.ac.uk/pub/databases/impc/)から取得した、行動、形態、代謝、生理、病理などに関する網羅的な表現形質データ(バージョンrelease-12.0:約7,000種類の変異系統、20種類の検査の約500の測定項目、約3,000万のデータポイントで構成される)に対して、分析や可視化を可能にするため、データの整形・クレンジングを行った。また、モデルの予測精度向上のためにデータの正規化を行った。量的データについては、コントロール群の移動中央値を基に個々の値を正規化する一方で、質的データについては、目的変数を用いたtarget encodingの手法により数値変換した。さらに、この処理済みのデータセットに対して、個々の値からでは見えない情報やデータ間の関係を把握するため、各測定項目別での散布図の作成、全データに対する主成分分析など、データの集計、要約、可視化を行った(探索的データ分析)。 以上の作業を行い、次年度(2022年度)に行うモデル構築用のデータセットを作成した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題の主たる目的は「マウス個体の異常を高精度に検出可能な方法論の開発」で、3ヶ年で終了予定の課題である。2021年度では、次年度に使用する解析用データセットの作成作業を完了させた。これにより、2022年度に予定している「マウス個体の異常を高精度に検出可能な方法論の開発」へ順調に進むことができる。
|
今後の研究の推進方策 |
2021年度では次年度の解析用データセットを作成することができた。したがって、当初の予定通りに、次年度以降の研究を進める予定である。具体的には、2022年度では、このデータセットを用いて、本研究の主たる目的である、マウス個体の異常を高精度に検出可能な方法論を開発する。2023年度では、前年度に開発した方法論をもとにした「ユーザーが指定した表現形質異常を持つマウスを個体レベルで提示可能なアプリケーション」を開発する。
|
次年度使用額が生じた理由 |
(理由) 大規模データ解析用ワークステーションの購入に係る経費を算出していたが、計画を変更して、最終年度に予定する「ユーザーが指定した表現形質異常を持つマウスを個体レベルで提示可能なアプリケーション」開発を強化するための経費として算出する。この変更は、当初の予定より、ユーザーの利便性を拡張させた機能をもつアプリケーションの開発に重きをおいた計画変更に起因する。 (使用計画) 前年度の繰越金は、最終年度に予定するアプリケーションの開発費として使用する予定である。また、開発中のアプリケーションのプロトタイプのホスティングサービス費も前年度と同様にその他の経費として計上する。
|