2022 年度実績報告書

非翻訳領域の伸長リピート配列の網羅的な発見に基づく神経変性疾患発症機構の解明

研究課題

研究課題/領域番号	22H02823
配分区分	補助金
研究機関	国際医療福祉大学
研究代表者	辻省次国際医療福祉大学, 医学部, 教授 (70150612)
研究分担者	池内健新潟大学, 脳研究所, 教授 (20372469) 田中真生国際医療福祉大学, 医学部, 講師 (30774252) 石浦浩之東京大学, 医学部附属病院, 届出研究員 (40632849)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	伸長リピート配列 / ロングリードシーケンス / アルツハイマー病 / 神経変性疾患
研究実績の概要	本研究では、封入体形成が病理学的特徴である神経変性疾患に着目して、非翻訳領域のリピート伸長配列を探索し、発症機構を解明することを目的とする。この考え方は、非翻訳領域のリピート伸長配列は、Repeat Associated Non-AUG translation (RAN translation) を引き起こし、異常なアミノ酸配列を有するタンパクへの翻訳が行われ、その結果、封入体を形成するという仮説に基づいている。リピート伸長配列の検出は、short read sequencerでは困難であることから、long read sequencer による全ゲノムシーケンス解析を実施し、伸長リピート配列を検出する独自に開発したプログラムを用いて、伸長リピート配列をゲノム全域から検出し、これらの伸長リピート配列が発症者において、over-representation されている伸長リピート配列の発見を目指す。発症年齢の早いextreme phenotype を示すアルツハイマー病、家族歴を有する家族性アルツハイマー病症例を中心に7例を選択して、long read sequencer (Pacific Bioscience s 社のSequel II) を用いて、ロングリードシーケンス解析を実施した。long read sequencerは、error readを生じやすく精度が十分でないことから、circular consensus sequencing (CCS) というアルゴリズムにより、精度の改善が行われているが、伸長リピート配列のようなlow complexity sequenceに対しては、有効性は限られている。この課題を克服するために、ロングリードシーケンス解析において、CCSだけでなく、CCSアルゴリズムを用いずにBAMファイルを取得することもあわせて行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究では、伸長リピート配列がアルツハイマー病の発症に関与するという仮説に立ち、発症年齢の早いextreme phenotype を示すアルツハイマー病、家族歴を有する家族性アルツハイマー病症例を中心に7例を選択して、PacBio Sequel II を用いたロングリードシーケンス解析を実施した。ロングリードシーケンス解析を実施した。long read sequencerは、error readを生じやすく精度が十分でないことから、circular consensus sequencing (CCS) というアルゴリズムにより、精度の改善が行われているが、伸長リピート配列のようなlow complexity sequenceに対しては、CCSアルゴリズムの有効性は限られていて、伸長リピート配列が、CCS readに取り込まれない可能性がある。この課題を克服するために、ロングリードシーケンス解析において、CCS read (HiFi read) だけでなく、CCSアルゴリズムを用いずにBAMファイルを生成することもあわせて行った。解析プログラムについては、伸長リピート配列中にリピート配列のinterruption などを許容する条件について、パラメータ設定について予備的検討を行った。
今後の研究の推進方策	初年度に、予定通り、アルツハイマー病症例７例（早期発症例、家族性アルツハイマー病を含む）について、PacBio Sequel II を用いて、circular consensus sequencing (CCS) アルゴリズムによりHiFi read の取得、および、CCSアルゴリズムを用いないでBAMファイルの取得をあわせて完了した。本年度は、これらの、HiFi read、 BAM ファイルを用いて、伸長リピート配列の探索を進める。具体的には、既に作成済みの独自のプログラムを用いて、trinucleotide-、 tetranucleotide-、 pentanucleotide-、 hexanucleotide repeats について、一定基準以上の長さを有する伸長リピート配列の網羅的解析を実施して、ゲノム全域から伸長リピート配列を有するlong read を抽出する。ロングリードシーケンサーで得られるリードには一定割合で、sequence errorが存在する事から、sequence errorが含まれる可能性を考慮した上で、伸長リピート配列の抽出条件を柔軟に設定し、impure repeat motifの混在を許容して、網羅的な解析を実施する。これらの伸長リピート配列について、遺伝子の非翻訳領域に存在する伸長リピート配列を抽出し、中枢神経系における発現量の情報を含めてデータベース化し、アルツハイマー病症例群でどのような伸長リピートが存在するかについて、詳細な解析を進めていく。