2017 Fiscal Year Research-status Report
網羅的塩基配列解読データを用いたコンタミネーションの検出と影響解析手法の開発
Project/Area Number |
17K00396
|
Research Institution | The University of Tokyo |
Principal Investigator |
朴 聖俊 東京大学, 医科学研究所, 特任講師 (40759411)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | コンタミネーション / バイオインフォマティクス / 次世代シークエンシング |
Outline of Annual Research Achievements |
一般的に、次世代シークエンサー(NGS)データ解析において参照ゲノムにアラインメントできない解読配列は解析から除かれる。最近、このような解読配列から外来性細菌やウイルスゲノム(コンタミ)を検出した研究報告が注目されている。標的細胞への外来性ゲノムの混入が認められると、サイトカインや免疫関連遺伝子発現などに疑義が生じ、研究考察に深刻な影響を及ぼす。したがって、NGSデータをより詳細に解析することは、実験セッティングの適切さと誤解釈を防ぐ手だてとなる。
本研究では、NGSデータを用いてコンタミの網羅的かつ高確度なプロファイルを作成する方法を開発する。そして、教師なし深層学習でこれらのプロファイルの生成過程をモデル化して、遺伝子発現プロファイルとコンタミプロファイルが与えられたときに、異常発現遺伝子を推定する手法を開発する。これらの結果はデータベース化するなどで一般公開することを目的とする。
本年度では、解析パイプラインの設計とチューニングを行った後、インターネット上で解析結果とともに公開した(OpenContami、https://openlooper.hgc.jp/opencontami/)。解析結果は450件以上のENCODEなどからのRNA-seqとDNA-seqデータを含んでいる。また、本パイプラインの出力である、遺伝子発現プロファイルとコンタミプロファイルを関連付ける多変量解析手法を実装し、遺伝子発現に影響を与えるコンタミの同定が可能となった。これにより、深層学習手法開発の考察が容易になったと考える。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の目標であった解析パイプラインの設計とチューニングは概ね終了し、一般公開を行った。性能テストは、独自に構築した30万種以上の微生物ゲノムDBをランダムサンプリングして生成した疑似リードを用いて行った。その結果、65%の疑似リードがFDR5%レベルで元の種(Species)にユニークにマッピングできた。これは、異属同種ゲノム間の高い配列類似度を反映しており、実際、99%の疑似リードは元の属(Genus)にユニークに戻すことができた。したがって、ゲノム配列の特性から、コンタミプロファイルは属レベルで行うことが妥当であることがわかった。
本パイプラインを用いて450件以上のNGSデータを解析し、その結果をDBとして公開している。これにより、培養や分化誘導など細胞操作を多く繰り返すほどコンタミが顕著になること、施設やロットごとにコンタミプロファイルが異なること、BacillusとPseudomonas属が最も頻繁に出現することがわかった。この結果を国内外学会で口頭・ポスター発表を行い、ベストポスター賞(GIW2017)に選ばれるなど高く評価されている。
また、遺伝子発現プロファイルとコンタミプロファイルの関係性を解析するために、多変量解析手法である複合非負値行列因子分解(Joint NMF)をC++言語で実装した。この方法は、複数の異質入力データ(遺伝子発現量とコンタミ量)を共通の潜在因子(ランク)でクラスタリングする(モデュール化)。これにより、例えば、EBV産生ヒトリンパ腫株において、EBVに応答して発現上昇する既知遺伝子を抽出できた。すなわち、あるコンタミに影響された遺伝子を推定することが可能である。現在、包括的な関係性解析を進めている。
|
Strategy for Future Research Activity |
本年度に得られた成果を基にして、今後、コンタミの標的細胞への影響を推定する方法を確立する。現在までは非負値行列因子分解を導入しているが、この手法ではコンタミを含まない条件での本来あるべき遺伝子発現プロファイルが推定できない。そこで、教師なし深層学習手法の一つであるDEA(Denoising Autoencoder)の導入を検討する。
遺伝子発現解析におけるDEAの応用例はいくつかあるが、一般的に、DEAはノイズをエンコーダに加えることで破壊された入力からもとの入力を復元する確率的モデルとして使用される。本研究では、ノイズをデコーダに加えるように改変する。すなわち、ノイズの乗った(コンタミに影響された)遺伝子発現プロファイルを入力として、入力層から隠れ層へのエンコーダと、隠れ層から復元層へのデコーダを作る。復元層からの生成発現プロファイルと入力発現プロファイルとの誤差が最小となるようにパラメータを学習する。このとき、復元層にノイズを加えるが、このノイズはコンタミプロファイルに由来する。最終的には、ノイズ項を除いてから発現プロファイルをサンプリングし、元の入力プロファイルとの違いを解析する。
DEA以外に制限ボルツマンマシンなどを含め、エントロピー誤差・二乗誤差などの誤差評価法と活性化関数について検討する。一方、比較的クリーンなNGSデータがあれば、(半)教師あり深層学習を用いることも検討する。機械学習技術は進歩の早い分野であるため、国内外の関連学会参加などで情報収集と専門家の助言を仰ぐ。
|
Causes of Carryover |
研究進捗状況に合わせて論文出版を来年度に修正したことにより、論文出版費用として計上した助成金の一部が次年度使用額として生じた。来年度の英文校正と出版費用の一部として使用する計画である。
|