研究課題
本研究の目的は、ヒトゲノムに存在するコピー数変異 (CNV) の多様性を配列レベルで解明することである。二倍体のゲノムは通常相同なゲノム配列を2コピーずつ持つが、 CNV 領域ではコピー数が増減する。CNV は全ゲノムの約5-10% に存在すると見積もられており、個人差や精神疾患などの形質に大きく寄与していることが知られている。従来の解析ではアレイ CGH や SNP アレイによるコピー数推定が行われてきたが、配列の違いを区別することは難しい。 CNV を配列レベルで解析することは、形質への影響や変異メカニズムを理解する上で重要である。そこで、本研究では短鎖型・長鎖型のシークエンス技術による配列情報を用いることで、CNV の塩基配列を特徴づける方法を開発する。初年度には、長鎖型シークエンスデータによる正解配列の構築を行った。特に、ヒトゲノムで多様性が高く、コピー数変異の存在する HLA 遺伝子に着目し、 208 検体の日本人サンプルを用いて HLA-A, HLA-B, HLA-C および HLA-H 遺伝子の配列データベースを構築した。その際、既存の PacBio 社のアセンブリ・パイプライン (SMRT Analysis) を発展させた形で、長鎖型・短鎖型双方のシークエンスデータを用いる新規の計算機手法 (PSARP) を開発し、高品質な配列の復元に成功した。また、短鎖型のシークエンスデータを用いた CNV 同定手法開発のため、多層の畳み込みニューラルネットワークを用いたモデル構築と TensorFlow によるプログラム実装を行い、特徴的な配列モチーフの検出に必要な準備を行った。
2: おおむね順調に進展している
本年度は、ヒトゲノムに存在するコピー数変異 (CNV) の多様性を配列レベルで解明する研究課題に向け、長鎖型シークエンサによる正解データの構築、および構築のための情報解析手法の開発を行い、計画通りに進行した。また、実施計画通りに GPU を搭載したデスクトップ型のマシンを導入し、次年度で行う開発の環境構築と予備解析を行った。
今年度は、主に長鎖型シークエンサによる正解データ構築のための技術開発と、HLA 領域での正解配列の構築を行った。次年度は短鎖型シークエンサを用いた CNV の定量と配列解析のアルゴリズムを開発し、性能評価を行う予定である。また、長鎖型シークエンサによる正解配列をより広いゲノム領域に渡って作成し、配列復元の評価に用いることも検討する方針である。
すべて 2018
すべて 雑誌論文 (1件) (うち国際共著 1件、 査読あり 1件、 オープンアクセス 1件)
The Pharmacogenomics Jorunal
巻: 125 ページ: -
doi:10.1038/s41397-017-0010-4