2017 Fiscal Year Research-status Report
Analyzing Genomic Binding of Pyrrole-Imidazole Polyamides by Machine Learning
Project/Area Number |
17K15047
|
Research Institution | Chiba Cancer Center (Research Institute) |
Principal Investigator |
LIN JASON 千葉県がんセンター(研究所), がん遺伝創薬研究室, 博士研究員 (80774124)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | ケミカルバイオロジー / バイオインフォマティクス / ゲノミックス |
Outline of Annual Research Achievements |
癌遺伝子の主蛋白質を標的にすることで革新的ながん治療法が開発されているが、治療薬の開発が難しい標的分子も多い。ピロールイミダゾールポリアミドは、 DNA副溝に結合することによって、DNAを直接標的にできる化合物である。以前の結果により、様々なPIPが癌細胞株およびマウス生体内で増殖を阻害することが確認されている。しかし、大半のPIPは 8から10塩基認識であり、ゲノム内には多くの結合配列が存在する。このため、PIPの治療効果、毒性や副作用などの安全性を予測することが困難と考えられる。本課題では、細胞での解析情報に加えピロールイミダゾールポリアミドの結合配列を持つヒト人工染色体を用いゲノムへの結合配列を解読し、細胞での生物活性情報を加味して結合配列を予測検討する機械学習アルゴリズムのランダムフォレストを用いた新規解析プラットフォームを構築することを目的とする。今年度の研究費は、 主に上記の研究を遂行するためハイスペックコンピューターおよび関連する試薬の購入費に当てられた。
現在、ピロールイミダゾールポリアミドのKR12による大腸がん細胞株Chem-seqデータによって、機械学習用データセットを構築し、ランダムフォレストの実効性を評価している。配列リードデータはカテゴリ変数へ変更し、トレーニングセットに割り当てられた分類に基づいて、KR12結合(及び非結合)サイトを手動割当した。ピークを集計し、機械学習用「特性表」を生成した。特徴的な塩基長、塩基長ウィンドウ内の配列リード頻度、極大と極小値などの統計情報も収集した。様々な統計パラメータを用いたランダムフォレストアルゴリズムでは、分類正答率が従来の方法(PLoS ONE 2016)より優れた数字である。さらに、現在のモデルは、OOB エラーレートの 11-17%によってその性能を評価することができる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度では、今までの解析によるランダムフォレストの実効性を明らかにしたが、エラーレートが高いためアルゴリズムの最適化および交差検証は必要である。それに伴い、ヒト人工染色体を用いたChem-seq実験を予定している。 なお、今年度ではゲノミックスデータを用いた機械学習法によるピロールイミダゾールポリアミド結合サイトの検出を行うとともにピーク判定法および副作用の予測方法を開発し、今後機械学習法の汎用性による解析プラットフォームの改善およびピロールイミダゾールポリアミドの薬理効果および安全性評価への応用研究を検討している。副作用予測する方法論を応用することで臨床試験における薬剤の影響やコンパニオン診断マーカーと関連する因子について詳細に数理解析を行い検討することが可能となると考えられる。 アルゴリズムを改善するために、大量なシーケンシングデータが必要であり、ほかの研究室との共同研究を計画する。
|
Strategy for Future Research Activity |
既存のアルキル化剤CBIを付加したPIPにさらにビオチンを付加しHAC内のDNAフラグメントをプルダウン後、Chem-seq実験で接合配列を検出する。クロマチン構造の影響をシミュレートするために、組換えヌクレオソーム粒子投与によるクロマチン構造構築の有無で、IonTorrent NGSでフラグメント解読データを取得、結合配列の判定を行う。分類の正確さをPCRとRNAマイクロアレイ実験で確認する。癌細胞株とHACゲノムNGS結果によりまとめて実験条件を検討し、高精度の配列決定のための実験条件の改善を行う。
本研究のアルゴリズムは、プログラミング言語のRとPerlで実装され、パッケージを準備し、アルゴリズムのソースコードをリリースすると考えられる。アルゴリズムを最適化するため、パフォーマンスを向上させ可能なC言語で書き直す。加えて細胞生物実験でのPCR、マイクロアレイおよび動物実験によるピークおよび副作用の判定するアルゴリズムを評価し、生物活性の影響を検証する。非アルキル化したピロールイミダゾールポリアミドのような異なるピロールイミダゾールポリアミド機能分子複合体によるゲノム修飾においても、この最適化したChem-seq実験プロトコールよりピークを検出し、副作用も判定し、本研究の解析プラットフォームの拡張性を評価する。既存のデータセットと新しいPIP実験から得られる大量、十分量のデータからPIP-DNA相互作用の化学的性質を解明・理解でき、遺伝子の相互作用ネットワークを介して、基礎となる生物学的メカニズム及び遺伝子発現のクラスタリングを可能とすると考えられ、これを遂行する。
|
Causes of Carryover |
今年度では、シーケンシング解析によるランダムフォレストの実効性を明瞭したが、元に計画したヒト人工染色体を用いたChem-seq実験をまだ実行しないため、次年度で進行予定と考える。それに伴い、今年度の研究費の一部を保留した。
|
Research Products
(4 results)
-
-
[Presentation] Design of a next-generation affinity-enrichment Chem-seq sequencing procedure to assess the biochemistry of minor-groove-binding pyrrole-imidazole polyamides2017
Author(s)
J. Lin, A. Tataktori, K. Hiraoka, H. Yoda, S. Krishnamurthy, T. Inoue, T. Watanabe, T. Kuo, Y. Shinozaki, N. Koshikawa, P. Horton, H. Nagase
Organizer
2017年度生命科学系学会合同年次大会
Int'l Joint Research
-
-