研究課題/領域番号 |
18K14624
|
研究機関 | 東京工業大学 |
研究代表者 |
梶谷 嶺 東京工業大学, 生命理工学院, 助教 (40756706)
|
研究期間 (年度) |
2018-04-01 – 2020-03-31
|
キーワード | ハプロタイプ / アレル特異的 / 遺伝子構造アノテーション |
研究実績の概要 |
本研究では多倍体ゲノムにおけるアレル (ハプロタイプ) 特異的事象の解析のためのソフトウェアの開発が主目的となっており、その実行に際してはハプロタイプ配列を個別に決定して構築した参照配列と塩基配列シークエンサーのデータ (RNA-seq等) の入力を想定している。また、各ハプロタイプの遺伝子発現量等の値と分子メカニズムの知見を結びつけるため、参照配列のアノテーション (遺伝子予測を含む注釈付け) の手法の開発も行う。 本年度はテスト用データを取得するための体制の構築と参照配列アノテーションのソフトウェア開発を主に行った。本研究の前段階として各ハプロタイプ配列の決定が必要となり、当機能を担うツール:Platanus-alleeは代表者を含むグループが開発と論文発表 (Kajitani et al. 2019) を行ったが、これは別研究課題の対象であるため説明を省略する。既存手法で解析困難なゲノム領域として高ヘテロ接合性領域が存在するが、ゲノム中でのそれらの割合は野生集団由来のサンプルで大きく、近交化が進んだモデル生物サンプルでは小さいケースが多い。高ヘテロ接合性かつ多種類のライブラリ調整法によるデータが揃っているサンプルは公開データベース上で少数であるが、頭索動物や棘皮動物の豊富なデータを持つグループと共同研究の機会を得た。対応する発表は前述の論文 (Kajitani et al. 2019) や学会発表:奥野ら、日本動物学会第89回大会、2018 等であるが、これらは本研究が主対象ではない点は注記する。参照配列のアノテーションに関しては、既存ツールのMAKER (Holt et al. 2011) 等は元論文でも記述されている通り予測精度が低いケースが多いと判断し、代表者を含むグループで新規ツールを開発し精度を向上させた (篠田ら、第43回日本分子生物学会年会、2018)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本年度はテスト用データを取得するための体制の構築と参照ゲノム配列アノテーションのソフトウェア開発を主に行った。本研究の前段階として各ハプロタイプ配列の決定が必要となり、当機能を担うツール:Platanus-alleeは代表者を含むグループが開発と論文発表 (Kajitani et al. 2019) を行ったが、これは別研究課題の対象である点は注記する。本用途のツールは本研究の申請時点でもPlatanus2という名で実行可能な状態であったが、論文化に伴い開発は継続していた。データ取得体制の構築としては、頭索動物や棘皮動物の豊富なデータを持つグループと共同研究の機会を得た。参照配列のアノテーションに関しては、当初は既存ツールのMAKER (Holt et al. 2011) 等を組み込んでハプロタイプ毎のアノテーションを行うパイプラインの構築を予定していたが、容易であると考えられたハプロタイプのコンセンサス配列 (疑似的な1倍体ゲノム配列) を対象としても、既存ツールの遺伝子領域予測精度が低いケースが多いという問題が浮上した。そのため、代表者を含むグループで新規ツールを開発し精度を向上させた (篠田ら、第43回日本分子生物学会年会、2018)。 当初の予定より遅れている理由としては、ハプロタイプ毎の遺伝子アノテーションや更に下流の解析工程の前段階で問題が浮上し、その対応に時間を費やしたことが挙げられる。遺伝子アノテーションは近縁生物種のタンパク質配列検索 (homology search)、RNA-seqデータのマッピング、計算機上での予測 (ab initio) 等の多数の内部工程を含む複雑な作業となり、代表者の所属する東京工業大学 伊藤武彦研究室の大学院生を始めとする複数人の共同作業によりようやく性能向上を達成した。次年度はこれらの成果を活用して研究課題を進める。
|
今後の研究の推進方策 |
本年度の成果である遺伝子構造アノテーションツールを、ハプロタイプが個別に決定された参照配列データに対応させ、RNA-seqを始めとする種々のシークエンサーのデータをマップするためのソフトウェアを開発する予定である。開発は引き続き代表者の所属する東京工業大学 伊藤武彦研究室の大学院生らと共同して実施する。低ヘテロ接合性ゲノム領域に対しては、ハプロタイプ配列構築とアレル特異的事象解析について既存ツールも複数存在しているため、高ヘテロ接合性領域の解析可能性を新規性として確保しつつ計画を進める。そのような領域は種分化や種内の表現型の多様性との関連が報告され、研究対象を野生集団由来の非モデル生物に広めるためにも重要であると考えられる。テストデータとしては、本年度に共同研究の機会を得た、頭索動物や棘皮動物を想定している。ただし、これらデータ算出の本来の目的は本研究のテストではないため、データ公開時期等については共同研究者と注意して調整を行う。モデル生物については、データの充実しているヒト (特にNA128787) の公開データ等を用いる予定である。
|
次年度使用額が生じた理由 |
次年度使用額が生じた理由には、計画の遅れとテストデータや計算機環境の充実である。後者は本来研究推進においては良い要素であるはずだが、予想よりも良い環境が得られた分、ソフトウェア開発に時間を割くことになり、予算の使用が遅れてしまった。ここで、該当するテストデータは本年度に共同研究にてテストする機会を得た頭索動物や棘皮動物のデータであり、計算機は所属研究室の設備を共有することで開発を進めることが可能な環境を得た。ただし、共同研究のデータは本研究のために産出したものではないためにデータ公開時期等は調整の必要が生じ、開発ソフトウェアの汎用性の担保のためには更に多くのケースでテストが必要であるため、次年度以降にシークエンシングデータ産出のために予算を使用する予定である。
|