2023 Fiscal Year Research-status Report
嗅球糸球体層の活性パターン画像と分子パラメタに基づく物質の匂い情報の定量化
Project/Area Number |
21K19796
|
Research Institution | Kyushu University |
Principal Investigator |
冨浦 洋一 九州大学, システム情報科学研究院, 教授 (10217523)
|
Co-Investigator(Kenkyū-buntansha) |
林 健司 九州大学, システム情報科学研究院, 教授 (50202263)
|
Project Period (FY) |
2021-07-09 – 2025-03-31
|
Keywords | 匂い物質 / 匂い情報の定量化 / SMILES / 分子構造 / 匂い記述子 / 事前学習 / Transformer |
Outline of Annual Research Achievements |
BERTは自然言語処理で用いられる,句や文のembeddingの事前学習モデルである.BERTはTransformer Encoderで構成され,一部の単語をマスクした入力からマスクした単語を予測するというタスク(MLM)を用いて事前学習をしている.分子構造を文字列で表現したSMILESのembeddingをBERTと同様にしてMLMを用いて事前学習し,これを利用して分子特性を推定する手法が提案されている.しかし,自然言語文と異なり,SMILESには冗長性がないため,単純にMLMを用いてSMILESのembeddingを求めるのは適切でない. 昨年度,SMILESのembbeddingの事前学習モデルとしてBERTを改良したモデルを考案した.このモデルでは,2つのTransformer Encoderを用いる.1つ目のEncoderの入力は標準形のSMILESであり,embeddingに変換される.2つ目のEncoderの入力は1つ目のEncoderに入力した標準形のSMILESと同じ分子を表すSMILES(標準形とは限らない)であり,かつ,その一部をマスクしたものである.2つ目のEncoderにはこれ以外に1つ目のEncoderで求まった標準形のSMILESのembeddingも入力される.2つ目のEncoderはこの情報を用いて,入力のSMILESのマスクされた部分の記号を推定する. 昨年度は,これを利用して匂い記述子の推定を行った.今年度は,提案した事前学習モデルを用いて,分子特性を予測するためのデータセットBACE, BBBP, ESOL, FreeSolv, Lipsoを用いた評価実験を行った. BACE,BBBPについては提案した事前学習モデルの方が性能が高かったが,ESOL, FreeSolv, Lipsoに関しては単純にMLMを適用したモデルの方が高かった.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
・研究成果を雑誌論文に投稿中であるがまだ採択されていない. ・匂い記述子の推定および一部の分子特性の推定では提案した事前学習モデルの方が良い推定性能を示したが,残りの3つの分子特性では単純にMLMを適用したモデルの方が性能が良かった.この原因が究明できていない. ・匂いの合成に用いることができるような線形性を持つ匂いコードを得るために,入力したSMILESが表す分子の匂い記述子の推定だけでなく,ラットの嗅球画像の予測(復元)をタスクに追加することを計画していたが,着手できていない.嗅球画像がある物質の種類が約300と少なく,しかも,嗅球の形状の歪み(ラットの個体差)が大きく,効果が期待できないと考えたため,着手しなかった.嗅球画像に代えて,研究分担者の林が開発しているLSPRガスセンサーで匂い物質を測定した場合のセンサー出力を予測するというタスクを追加することを想定し,LSPRガスセンサーの出力で匂いが識別できるかどうかの予備実験を行った.
|
Strategy for Future Research Activity |
・提案したSMILESの事前学習モデルは,その構成から,得られるSMILESのembeddingは,単純にMLMをタスクとするモデルを用いた場合より,分子の構造情報を捉えていると考えている.しかし,ESOL, FreeSolv, Lipsoについては,分子特性の推定性能が単純にMLMをタスクとした事前学習モデルを用いた場合の方が高くなっていた.この理由を解明するために,Therapeutics Data Commons (TDC)が提供するベンチマーク(22データセット)を利用した評価実験を行う. ・匂いに関連する情報の大規模なデータの構築が匂いコードの推定の鍵となる.そのような情報を検討する.候補の一つとして引き続き,LSPRガスセンサーの出力を検討する.
|
Causes of Carryover |
昨年7月に投稿した雑誌論文(OA誌)のAPC用に50万円,この論文原稿に対して英文校正を要求された場合の費用10万円,合計60万円を当初から残しておいたが,年度内に査読結果が出ず,残額が生じた. 期間延長が認められており,2024年度にAPCおよび英文校正費として使用する予定である.残り約25万円については,研究成果の国内発表等に使用する予定である.
|