研究課題/領域番号 |
21H03547
|
配分区分 | 補助金 |
研究機関 | 長浜バイオ大学 |
研究代表者 |
白井 剛 長浜バイオ大学, バイオサイエンス学部, 教授 (00262890)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
キーワード | 生命分子計算 / 生体超分子構造 / データサイエンス医療 / グラフ理論 |
研究実績の概要 |
昨年度の研究で、疾患-治療薬経路グラフデータ高次化のために、主として医薬品(ドラッグ)立体構造モデルの構築および立体構造データの疾患-治療薬経路グラフへの連結するためのモデリングのためのパイプラインを構築し高分子薬(抗体・核酸など約500分子)を除く約21,000の構造モデルを構築した。引き続き本年度は2024年度計画に従い、高分子薬の構造モデリングについて必要となる翻訳後修飾・人為的修飾など手動モデリングの過程を、alphafold2などを活用しながら構築をすすめ、主に核酸医薬品など全体の80%程度(医薬品の全数としては22,148分子)のモデルを構築した。さらに医薬品アノーテーションの高度化を目的として、高分子薬の種別(タンパク質(713分子)、核酸(77分子)、糖鎖(36分子)、抗体(620分子)、ワクチン成分(26分子)、その他の高分子(229分子))の判別子および解剖治療化学分類(ATC: Anatomical Therapeutic Chemical)コード(5587分子)のデータをグラフデータに付け加えた。また、これまで機械学習で使用する、医薬品と疾患をつなぐタンパク質の識別コードは既成のAutoEncoderの出力を使用していたが、独自のエンコーディングを実装するために、タンパク質配列ペアの頻度マトリックスをオートエンコーディングする機械学習器を試作しテストした。テストでは、配列(正確にはタンパク質配列ペアの頻度マトリックス)を、20次元程度のベクトルにエンコーディグ(これがタンパク質のコードとなる)して、相関係数0.7程度で元のマトリックスを再現可能であった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2023年度実績の概要に述べた様に、当初計画から変更なく概ね計画に沿って進行していると判断した。
|
今後の研究の推進方策 |
今年度は引き続き、高分子薬の構造モデルの構築とターゲットタンパク質との複合体構造データの作成を行い、疾患-治療薬経路グラフへの連結を推進する。モデリングのためのパイプラインは引き続き翻訳後修飾の処理などのため改善する。また、ターゲットタンパク質複合体構造とSIRD(https://sird.nagahama-i-bio.ac.jp/sird/)など独自開発した構造分類データベースを融合して、ドメインなどの分割を考慮した疾患-治療薬経路グラフの高度化と機械学習の高度化を引き続き行う。基礎的なデータが整いつつあるので、本年度はrandom forest(RF)またはGNN(graph neural network)などの、現状(GBDT, Gradient Boosted Decision Tree)とは異なるモデルによる機械学習器の構築を行い、判別・予測性能の比較を行う。特に2023年度から着手した、独自のAuto Encoder により予測性能が向上するか否かを検証する。また同様の試みとして、医薬品の分子構造をグラフコンボリューショナルニューラルネットを介して入力データとする方法も検討する。これにより、医薬品の構造類似性の判別性能が向上することが期待できる。
|