研究課題/領域番号 |
15K06919
|
研究機関 | 東京大学 |
研究代表者 |
門田 幸二 東京大学, 農学生命科学研究科, 特任准教授 (60392221)
|
研究期間 (年度) |
2015-10-21 – 2018-03-31
|
キーワード | バイオインフォマティクス / トランスクリプトーム / 発現変動 / R |
研究実績の概要 |
生体内で発現している転写物配列や発現量を網羅的に調べるトランスクリプトーム解析は、次世代シークエンサ(NGS)を用いたRNA-seqと呼ばれる手段が主流である。解析目的や実験デザインに応じたいくつかの手法が提案されており、手法選択に関する一定のガイドラインも存在する。しかしこの枠組みは、リード長の短いRNA-seqデータに基づくものである。本研究の目的は、今後本格化するミディアム~ロングリード時代のNGS解析に対応すべく、統一的なトランスクリプトーム解析のためのガイドライン構築である。具体的には、研究代表者らがこれまで開発してきた比較トランスクリプトーム解析手法の適用可能範囲の拡張および改良を行う。 平成27年度は、3群間比較に焦点を絞ってシミュレーションデータおよびリアルデータを用いて感度・特異度および計算時間の評価を行い、我々のRパッケージTCC (http://www.bioconductor.org/packages/release/bioc/html/TCC.html) の解析パイプラインが優れていることを確認した。具体的には、反復ありデータの場合には内部的にedgeRパッケージを用いたEEE-Eというパイプラインが、そして反復なしデータの場合には内部的にDESeq2パッケージを用いたSSS-Sというパイプラインが感度・特異度が高いことを示した。得られたガイドラインは、エンドユーザが手軽に利用できるよう研究代表者のウェブページ「(Rで)塩基配列解析」やハンズオン講習会などで紹介した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究成果が原著論文として既に公開されていること、購入したノートPCを用いた講習会(アウトリーチ活動)も予定通り行えたことなどが挙げられる。様々なバージョンや環境での動作確認までは行えていないものの、平成28年度予定の「反復なし」データ解析用ガイドラインについて多少なりとも前倒しで進められたことが挙げられる。
|
今後の研究の推進方策 |
平成27年度に行った3群間比較は、「どこかの群間で発現変動している順にソート」した結果をもとに感度・特異度を評価した。TCCの推奨パイプラインの欠点は、どの群間で発現変動しているのかまではわからない、つまり発現パターン分類ができないという点である。その一方で、baySeqやEBSeqなどのベイズを用いたRパッケージは、ANOVA的な解析結果では感度・特異度の点でTCCに劣るものの、発現パターン分類ができるのが特徴である。つまり、post-hoc testまでを含めた包括的な解析結果の提供が、新たな課題として浮かび上がっている。これは、当初予定の平成28年度の実施計画である「反復なし」データ解析よりも需要が多いと思われるため、TCCの長所である頑健な正規化法を実行した結果をbaySeqやEBSeqに組み込んで発現パターン分類まで行う枠組みの提供も目指す。baySeqやEBSeqは計算コストがかかるものの、計算時間を必要以上に増加させずに精度向上を目指した解析パイプラインの構築も試みる予定である。
|
次年度使用額が生じた理由 |
発現パターン分類の必要性および重要性を認識したため、物品費として計上していたノートPC購入台数を当初予定の半分程度に抑えたことによる。
|
次年度使用額の使用計画 |
発現パターン分類を行うための学術支援職員を雇用(人件費を計上)し、post-hoc testまでを含めた包括的な解析結果の提供を目指す。
|