RNA-seqデータの発現変動解析を遺伝子クラスタリングで行う
Project/Area Number |
21K12120
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
門田 幸二 東京大学, 大学院農学生命科学研究科(農学部), 准教授 (60392221)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2021: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
|
Keywords | 遺伝子クラスタリング / 発現変動解析 / Rパッケージ / クラスタリング / DEG / RNA-seq |
Outline of Research at the Start |
比較するグループ間で発現の異なる遺伝子(DEG)を同定する作業は、多様なトランスクリプトーム研究の中でほぼ例外なく行われてきた。DEG同定精度は下流解析に影響を与えるため、今日でも活発に新規手法開発や性能評価が行われている。本研究は、遺伝子クラスタリングをDEG検出そのものに利用する試みである。これまで誰も考えつかなかったシンプルなアプローチで、知りうる限り最高性能の既存手法を凌駕する結果を出すことを目的とする。後進に対し、本当に有意義な研究であれば流行語を盛り込まなくてもよいこと、そして単なる知識の蓄積のみでは到達しえない「ひらめき」で勝ち切る手法開発系研究者の矜持を手本として示したい。
|
Outline of Annual Research Achievements |
比較する状態またはグループ間で発現の異なる遺伝子(DEG)を同定する作業は、多様なトランスクリプトーム研究の中でほぼ例外なく行われてきた。本研究は、DEG検出後の発現パターン分類などこれまで極めて限定的な目的でしか利用されてこなかった遺伝子クラスタリングをDEG検出そのものに利用する試みである。今年度は、2021年度に論文発表したMBCdeg1と2に加え、内部的にシンプルなサンプルごとの総カウント数を100万にそろえるCPM正規化法を組み込んだMBCdeg3を実装した。MBCdeg論文で用いたTCCパッケージによる様々なシナリオでのシミュレーションデータでの性能評価を行い、MBCdeg3のポテンシャルの高さを確認した。 本研究は提案手法の弱点を積極的に探すことも重要視しており、TCC以外のシミュレーションデータ生成パッケージであるcompcodeRとPROPERによる性能評価も行った。結果として、MBCdeg3は、PROPERではTCCと同様の性能の高さ(AUC値がMBCdeg1や2よりも全体的に高い)を示した一方で、compcodeRでは非常に試行ごとのばらつきが大きく性能もそれほどではないことが判明した。また、リアルデータでは正解が不明なものの、MBCdeg法は全体として試行ごとのばらつきが非常に大きいという短所も改めて確認できた。MBCdegに関するアウトリーチ活動としては、日本乳酸菌学会誌上で「遺伝子発現データのクラスタリング(第18回)」、「R Markdown(第19回)」、そして「RNA-seqカウントデータの性質と統計モデル(第20回)」に関する日本語の解説記事を公開した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
シミュレーションデータによる性能の高さを確認しつつも、当初の目的である欠点を見出すという目的も達成できているためである。
|
Strategy for Future Research Activity |
シミュレーションによる性能評価では非常に精度が高いが、「リアルデータでは何か変」という結果になるというのは、手法開発系の分野ではそれほど珍しいことではない。今後も引き続きシミュレーションデータとリアルデータのギャップを埋める取り組みを進めていく予定である。
|
Report
(2 results)
Research Products
(6 results)