2015 Fiscal Year Research-status Report
全ゲノムシークエンスデータ解析に基づく解析困難領域の同定と遺伝的多様性の解析
Project/Area Number |
26430196
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
藤本 明洋 国立研究開発法人理化学研究所, 統合生命医科学研究センター, 副チームリーダー (30525853)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | ヒトゲノム多様性 / 第3世代シークエンサー / 解析困難領域 |
Outline of Annual Research Achievements |
申請者は、以下の研究計画を実施している。 (1)ヒト集団ゲノムデータを用いて、解析困難な領域の特徴を明らかにする。また、(2)それらの領域のゲノム配列を読み取り長の長い第3世代シークエンサーを用いて決定することにより、解析困難領域の遺伝的多様性を解明することを目的としている。 解析困難領域を選出するために、ICGC (International Cancer Genome Consortium)により解析された日本人216人の正常組織(血液)由来のゲノムシークエンスを用いて、SNV(一塩基多様性)とindel(挿入欠失)を検出した。また、シークエンス深度を全サンプルについてカウントし、シークエンス深度が浅い領域、深い領域を網羅的に明らかにした。これらのデータを用いて、標準ゲノム配列内の解析困難領域の同定及び特徴の抽出を進めている。 上記に加えて、極めて多様性が高く解析が困難である領域と、非標準ゲノム配列の第3世代シークエンサーを用いた配列決定も行っている。第2世代シークエンサーにより配列決定されたサンプルのデータから、標準ゲノム配列にマッピングされなかったリード配列を選出し、de novoアセンブルを行い、非標準ゲノム配列を構築した。これらの配列上に、DNA濃縮アレイのプローブを作成し、DNAをcaptureし、第3世代シークエンサーを用いた配列決定も行った。データは得られており、現在はデータ解析を行っている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
非標準ゲノム配列と解析困難領域を選択し、プローブを作成して第3世代シークエンサーによるシークエンスを行った。 解析困難領域として、HLA (Human Leukocyte Antigen), CYP (Cytochrome P450), Killer-cell immunoglobulin-like receptor (KIR)、非標準ゲノム配列(約3Mbp)、HBV (B型肝炎ウイルス)を選択した。それらの領域について、Agilent社のSure select DNA 濃縮キットのプローブを候補領域を2回カバー可能な量でデザインし、作成を行った。また、ミトコンドリア領域のゲノム配列をエラー補正のための正解データとして用いるため、プローブに加えた。 HLAやKIRについては、多型性が極めて高いため、EBI (The European Bioinformatics Institute)が公開している多型データベースより、複数のハプロタイプを取得し、共通性が高い領域にプローブをデザインした。HBVは、一般的には解析困難であるとの認識はされていないが、我々の肝臓癌を対象とした研究で、HBVのヒトゲノムへの挿入が検出されており、これらのサンプルのHBV挿入配列の全長を明らかにするため、プローブに加えた。 予算が限られているため、ゲノムDNAを7サンプルずつ混合し、Captureを行い、第3世代シークエンサー(PacBio)用のライブラリを作成した。長いゲノム配列のCaptureを行うために、ゲノムDNAを6kbpに断片化し、該当するサイズのゲノムDNAをゲルから切り出して生成し、実験に用いた。 作成したライブラリをPacBioシークエンサー及び、第2世代シークエンサー(Hiseq2000)用いてシークエンスを行い、データを得た。
|
Strategy for Future Research Activity |
現在は、データ解析を行っている。第3世代シークエンサーはエラー率が高く(約15%)、そのままでは解析に用いることは困難である。そこで、リード長は短いが、比較的安価に大量データが得られる第2世代シークエンサーを用いたシークエンスも行い、2種類のデータを併用した解析が一般的に行なわれている。これまでに、様々な解析手法が提案されているが、本研究のデータでは、複数サンプルを混合しているため、既存の方法は不適切であると考えた。 最適な手法を探索するため、正解データを構築し、それに基づいて最適な手法やパラメーターを決定しようと考えた。正解データとして、ミトコンドリアの配列にマッピングされた第3世代シークエンサーのリードと、第2世代シークエンサーのリードを用いた。 マッピングプログラムとして、多型性が高い領域に対するマッピングを得意とするSHRiMP2ソフトウエアを選出した。様々なパラメーター(seedのパターンと長さ、mismatch penalty、gap open penalty、gap extension penalty)で、第3世代シークエンサーのデータに対して、第2世代シークエンサーのリード配列をマッピングし、マッピング率の比較を行っている。精度が高い補正法を構築した後に、全データに対して補正を行い、遺伝的多様性の解析を行う。
|
Causes of Carryover |
実験は概ね順調に進んでいたが、情報解析が困難であり、結果の実験的検証に至らなかった。
|
Expenditure Plan for Carryover Budget |
情報解析を行い、実験的検証に使用する。また、論文をまとめ、論文掲載料としても使用する。
|
Research Products
(8 results)
-
[Journal Article] Whole genome mutational landscape and characterization of non-coding and structural mutations in liver cancer.2016
Author(s)
Fujimoto A, Furuta M , Totoki Y, Tsunoda T, Kato M, ....., Chayama K, Miyano S, Aburatani H, Shibata T, and Nakagawa H.
-
Journal Title
Nat Genet
Volume: 48
Pages: 500-509
DOI
Peer Reviewed
-
-
[Journal Article] Circulating tumor DNA analysis for liver cancers and its usefulness as a liquid biopsy.2015
Author(s)
Ono A, Fujimoto A, Yamamoto Y, Akamatsu S, Nobuhiko H, Imamura M, Kawaoka T, Tsuge M, Abe H, Hayes CN, Miki D, Furuta M, Tsunoda T, Miyano S, Kubo M, Aikata H, Ochi H, Kawakami Y, Arihiro K, Ohdan H, Nakagawa H, Chayama K
-
Journal Title
Cellular and Molecular Gastroenterology and Hepatology
Volume: 1
Pages: 516-534
DOI
Peer Reviewed / Int'l Joint Research
-
[Journal Article] Exome analyses of long QT syndrome reveal candidate pathogenic mutations in calmodulin-interacting gene.2015
Author(s)
Shigemizu D, Aiba T, Nakagawa H, Ozaki K, Miya F, Satake W, Toda T, Miyamoto Y, Fujimoto A, Suzuki Y, Kubo M, Tsunoda T, Shimizu W, and Tanaka T
-
Journal Title
PLoS One
Volume: 10
Pages: e0130329
DOI
Peer Reviewed / Int'l Joint Research
-
-
-
-