研究課題/領域番号 |
16K12519
|
研究機関 | 東北大学 |
研究代表者 |
木下 賢吾 東北大学, 情報科学研究科, 教授 (60332293)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | ゲノム変異 / 発現量 / バイオインフォマティクス |
研究実績の概要 |
変異がコーディング領域にアミノ酸の変異を伴う形で入る場合には、自身が基盤Bで展開しているように、タンパク質の立体構造情報を活用して影響を推定する手法の開発の実現性は高い。一方で、変異が発現量に及ぼす影響はまだ未解明な部分も多く、非常にチャレンジングである。チャレンジングではあるが、これでまで我々が展開してきた遺伝子の発現量解析に関する研究とヒトを対象とした変異解析の基盤を活用し、変異の発現量に及ぼす影響の統計的な描像を明らかにすることを目指す。本年度は、ヒト培養細胞のうち比較的データが多い337個のChIP-seqのデータを主にENCODEから収集し独自に開発を行ったパイプラインで再解析を行った。大規模な再解析を行うにあたっては、メタデータの欠損が1割程度存在したので、マッピング後のリード数の分布を特徴量として欠損しているメタデータを補完する手法の開発を行い対応することができた。手法に関しては生命医学情報学連合大会での発表を行った。発現量に関しては培養細胞系での整理を行い、比較的データが多いA549細胞をターゲットとして変異と発現量の関係の解析を進めていくこととしたが、予備的な検討として、ChIP-seqの結果の類似度を定義し、結合部位のクラスタリング解析を行い、細胞の種類や抗体の種類など生物学的な特徴との相関を検討し、実験グループでのバイアスが無いか等の検討を行い、次年度の解析のためのデータセットを確定した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
制御領域の情報を当初はJasperなどの既知の転写因子結合部位情報を活用することを検討していたが、当初思っていた以上にChIP-seqのデータが利用できる環境が整ってきたので、後年に行う予定としていたChIP-seqのデータ収集と解析による調整領域の同定を行えた点で進展があった。その際、メタデータの欠損という問題があったが、データの深度分布に着目することで、データから欠けているメタデータを補完する手法の開発も行うことができた。
|
今後の研究の推進方策 |
2年目は、前年度に準備が整ったデータを利用して、変異と発現量の相関解析を行う。この際、平均発現量や変異データはセルライン毎に準備をし組織特異性の補正を行ったが、相関の解析は遺伝子毎に行うことで、より俯瞰的な変異と平均発現量の関係を見いだすことを目指す。また、調整領域の変異とコード領域の同義変異のそれぞれで平均発現量の差に対する影響を見る。調整領域に関しては、ENCODEのChIP-seqのデータを利用したヒストンや転写因子結合領域との関係の有無等、多角的に検討を加える。この際、一番懸念される問題として、変動幅の大きな遺伝子が少数しか見いだせないことであるが、既に個別の例では変異が発現量に影響を与える事がよく調べられているNRF2-Keap1シグナル伝達系を具体例として、初年度の組織特異性の補正法を見直す。また、制御領域に見いだせる変異で影響が強い変異が見つからない場合には、検討する領域を広げたり、複数の転写開始点を持つ遺伝子に関しては別の転写開始点の検討も行うとともに、信頼性の高いdbTSSのデータのあるセルラインを重点的に解析する。なお、最初は代表転写開始点のみを用いて解析の効率化を図るが、代表転写開始点の定義は菅野らのグループの研究を参考にする。
|
次年度使用額が生じた理由 |
昨年度の学会が東京で開催されたため旅費が予定より少額で済んだため。
|
次年度使用額の使用計画 |
本年度の学会が北海道で開催されるため、当初予定より旅費がかさむ分に充当して使用する。
|