Project/Area Number |
23K19300
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
0602:Agricultural and environmental biology and related fields
|
Research Institution | National Agriculture and Food Research Organization |
Principal Investigator |
渡邊 知輝 国立研究開発法人農業・食品産業技術総合研究機構, 果樹茶業研究部門, 研究員 (70984566)
|
Project Period (FY) |
2023-08-31 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | データ駆動型育種 / カンキツ類 / ゲノム構造変異 / INDEL / ロングリードシーケンス / 横断的解析 / バイオインフォマティクス / Python / カンキツ祖先品種 / 構造多型 / InDelマーカー |
Outline of Research at the Start |
ゲノムの大きな構造変異は従来のショートリードのNGSデータでは検出が難しく、データ駆動型育種をはじめとして、その利用は困難なままであった。しかし、近年ロングリードのNGSによるデータが集積し始めたことにより、その検出が容易になりつつある。カンキツは少数の祖先品種のゲノムが複雑に組み合わさり、その後代の品種に受け継がれているため、ゲノムの構造変異の利用価値が高く、また、変異のパターンも比較的限られていると考えられる。このことから、カンキツの祖先品種ゲノムにおいて大きな挿入・欠失変異を網羅的に検出し、育種等に利用可能なDNAマーカー作成の情報基盤を整備することを本研究の目的とした。
|
Outline of Annual Research Achievements |
カンキツ類ではその栽培コストの高さから育種の効率化が急務であり、データ駆動型育種の重要性が年々高まっている。そのため、各品種のゲノムに存在する変異の情報は重要である。これまで、多くの品種でシーケンシングが行われてきたが、その主流はショートリードと呼ばれる比較的リード長が短いタイプのものであった。しかしながら、ショートリードを基に検出される変異はSNPsや短いINDELに限られておりいわゆる50bp以上のラージINDELに関しては検出が困難であった。しかしながら、そうしたラージINDELは変異の規模が大きいことから各品種間の形質の差異に関連している可能性が高く、遺伝的な安定性も高いためDNAマーカーとしての利用も期待される。従って、カンキツの各品種におけるラージインデルの情報や品種間でのラージINDELの共通性の情報は育種上重要であると言えるが、そのデータの蓄積は十分ではなかった。このような背景から、本課題ではまず、複数品種のロングリードデータを基にリファレンスゲノムへのマッピング及びSV-callingを行い、それらの結果を統合して各品種におけるラージインデルの有無を可視化(TSV形式の表)するプログラムのLAYLA(LArge indel analYzer for muLti-sAmple)を開発した。LAYLAはプログラミング言語のPythonによりコーディングされているが、一部のプロセスは外部プログラムを呼び出す形式で実行する。LAYLAは既に実行可能なプログラムとしてテスト済みであり、農研機構の職務作成プログラムとしての認定を受けた。LAYLAには、より信頼性の高い変異のみを取得するフィルタリングオプションが搭載されている他、アノテーションデータを与えることで育種上より重要と考えられる遺伝子及びその周辺領域に存在するラージINDELのみを取得することが可能である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題の主要な目的は、現在普及及び蓄積が進みつつあるロングリードデータの活用基盤を整え、さらにカンキツにおける各品種間でのラージINDELの有無及びその保存性、共通性の情報を蓄積する事である。初年度に開発したLAYLAは汎用的なアルゴリズムを備えているため、解析対象品種のロングリードデータを格納したディレクトリとリファレンスゲノムのFASTAファイルを入力とすることで、生物種を問わず解析対象に存在するラージINDELを網羅的に検出し、その有無を可視化することが可能である。従って本研究課題の成果として既にロングリードデータの活用基盤を整えることができたと考えており、研究は順調に進展していると考えている。また、LAYLAの結果を基にした解析プロトコル(解析用プログラムの開発を含む)も必要に応じて順次進めており、網羅的なラージINDELの検出のみならず、より信頼性が高いと考えられる構造変異のみを取得するフィルタリングや、育種上より重要と考えられる遺伝子及びその周辺領域に限定したラージINDELの探索等も可能になった。このような状況を踏まえると、本研究課題は定められた研究期間内で一定の成果を挙げることが十分に可能であると考えられる。
|
Strategy for Future Research Activity |
LAYLAの開発により、ロングリードデータを用いた品種間での網羅的なラージINDELの検出が可能になった。従って今後はLAYLAを用いてカンキツの各品種、特に育種上重要と考えられるファウンダー品種(カンキツ品種の系譜図においてより上流に位置しそのゲノムの一部が多くの後代の品種に受け継がれていると考えられるもの)の13について、網羅的なラージINDELの検出を行う。使用するデータについては申請書記載の通りである。検出されたラージINDELの信頼性の検証については、既に報告されているキシュウミカン、クネンボ、ウンシュウミカンの親子関係が利用できる。キシュウミカン及びクネンボに共通して存在する任意のラージINDELが共にホモ変異である場合、その変異は必ず子であるウンシュウミカンにも受け継がれる。一方、キシュウミカン及びクネンボに共通して存在する任意のラージインデルが共にヘテロ変異である場合、その変異は一定の確率でウンシュウミカンに受け継がれるが、パターンによっては受け継がれない。また、キシュウミカン及びクネンボに存在しないラージINDELについては、ウンシュウミカンでも検出されない。LAYLAにより検出された大量のラージINDELが実際に遺伝性である場合これらの条件を満たすと考えられるため、バイオインフォマティクス的解析によりLAYLAが検出したラージINDELの妥当性及び信頼性の検証が可能である。また、LAYLAによりリファレンスゲノムの各地点において、各品種で検出されたラージINDELの情報が大量に得られる。このラージインデルの有無のパターンの類似性を用いてクラスタリングを行うことで、ラージINDELの有無の情報から各品種の遺伝的な近さを推定可能である。これらのバイオインフォマティクス的解析の他、必要に応じて適宜実験的手法でLAYLAの有効性に関する検証を行う予定である。
|