研究課題/領域番号 |
21K12120
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
門田 幸二 東京大学, 大学院農学生命科学研究科(農学部), 准教授 (60392221)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
|
キーワード | 遺伝子クラスタリング / 発現変動解析 / Rパッケージ / クラスタリング / DEG / RNA-seq |
研究開始時の研究の概要 |
比較するグループ間で発現の異なる遺伝子(DEG)を同定する作業は、多様なトランスクリプトーム研究の中でほぼ例外なく行われてきた。DEG同定精度は下流解析に影響を与えるため、今日でも活発に新規手法開発や性能評価が行われている。本研究は、遺伝子クラスタリングをDEG検出そのものに利用する試みである。これまで誰も考えつかなかったシンプルなアプローチで、知りうる限り最高性能の既存手法を凌駕する結果を出すことを目的とする。後進に対し、本当に有意義な研究であれば流行語を盛り込まなくてもよいこと、そして単なる知識の蓄積のみでは到達しえない「ひらめき」で勝ち切る手法開発系研究者の矜持を手本として示したい。
|
研究実績の概要 |
比較する状態またはグループ間で発現の異なる遺伝子(DEG)を同定する作業は、多様なトランスクリプトーム研究の中でほぼ例外なく行われてきた。本研究は、DEG検出後の発現パターン分類などこれまで極めて限定的な目的でしか利用されてこなかった遺伝子クラスタリングをDEG検出そのものに利用する試みである。今年度は、2021年度に論文発表したMBCdeg1と2に加え、内部的にシンプルなサンプルごとの総カウント数を100万にそろえるCPM正規化法を組み込んだMBCdeg3を実装した。MBCdeg論文で用いたTCCパッケージによる様々なシナリオでのシミュレーションデータでの性能評価を行い、MBCdeg3のポテンシャルの高さを確認した。 本研究は提案手法の弱点を積極的に探すことも重要視しており、TCC以外のシミュレーションデータ生成パッケージであるcompcodeRとPROPERによる性能評価も行った。結果として、MBCdeg3は、PROPERではTCCと同様の性能の高さ(AUC値がMBCdeg1や2よりも全体的に高い)を示した一方で、compcodeRでは非常に試行ごとのばらつきが大きく性能もそれほどではないことが判明した。また、リアルデータでは正解が不明なものの、MBCdeg法は全体として試行ごとのばらつきが非常に大きいという短所も改めて確認できた。MBCdegに関するアウトリーチ活動としては、日本乳酸菌学会誌上で「遺伝子発現データのクラスタリング(第18回)」、「R Markdown(第19回)」、そして「RNA-seqカウントデータの性質と統計モデル(第20回)」に関する日本語の解説記事を公開した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
シミュレーションデータによる性能の高さを確認しつつも、当初の目的である欠点を見出すという目的も達成できているためである。
|
今後の研究の推進方策 |
シミュレーションによる性能評価では非常に精度が高いが、「リアルデータでは何か変」という結果になるというのは、手法開発系の分野ではそれほど珍しいことではない。今後も引き続きシミュレーションデータとリアルデータのギャップを埋める取り組みを進めていく予定である。
|