嗅球糸球体層の活性パターン画像と分子パラメタに基づく物質の匂い情報の定量化

Research Project

Project/Area Number	21K19796
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 61:Human informatics and related fields
Research Institution	Kyushu University
Principal Investigator	冨浦洋一九州大学, システム情報科学研究院, 教授 (10217523)
Co-Investigator(Kenkyū-buntansha)	林健司九州大学, システム情報科学研究院, 教授 (50202263)
Project Period (FY)	2021-07-09 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000) Fiscal Year 2023: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000) Fiscal Year 2022: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000) Fiscal Year 2021: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Keywords	匂い物質 / 匂い情報の定量化 / SMILES / 分子構造 / 匂い記述子 / 事前学習 / Transformer / 匂い識別子 / グラフ / 匂い情報 / 匂いコード / 分子記述子 / 嗅球画像
Outline of Research at the Start	感性情報である匂いを客観的に扱うには匂いを定量的に表す必要がある．本研究では匂いを定量化したものを匂いコードと呼ぶ．任意の匂い物質に対してこの匂いコードが求まれば，匂いの識別，匂いの類似性評価，匂いの合成，匂いセンサーの開発などに役立つ．本研究では，ラットに約300種類の匂い物質を嗅がせたときの嗅球の糸球体の活性状態を撮影した画像，分子の物理化学的な特性を数量化した匂い物質の分子記述子，SMILES等で表された分子構造，人による匂いの分類である匂い記述子などの情報を基に，任意の匂い物質に対する匂いコードを求める．
Outline of Annual Research Achievements	BERTは自然言語処理で用いられる，句や文のembeddingの事前学習モデルである．BERTはTransformer Encoderで構成され，一部の単語をマスクした入力からマスクした単語を予測するというタスク(MLM)を用いて事前学習をしている．分子構造を文字列で表現したSMILESのembeddingをBERTと同様にしてMLMを用いて事前学習し，これを利用して分子特性を推定する手法が提案されている．しかし，自然言語文と異なり，SMILESには冗長性がないため，単純にMLMを用いてSMILESのembeddingを求めるのは適切でない．昨年度，SMILESのembbeddingの事前学習モデルとしてBERTを改良したモデルを考案した．このモデルでは，２つのTransformer Encoderを用いる．１つ目のEncoderの入力は標準形のSMILESであり，embeddingに変換される．２つ目のEncoderの入力は１つ目のEncoderに入力した標準形のSMILESと同じ分子を表すSMILES（標準形とは限らない）であり，かつ，その一部をマスクしたものである．２つ目のEncoderにはこれ以外に１つ目のEncoderで求まった標準形のSMILESのembeddingも入力される．２つ目のEncoderはこの情報を用いて，入力のSMILESのマスクされた部分の記号を推定する．昨年度は，これを利用して匂い記述子の推定を行った．今年度は，提案した事前学習モデルを用いて，分子特性を予測するためのデータセットBACE, BBBP, ESOL, FreeSolv, Lipsoを用いた評価実験を行った． BACE，BBBPについては提案した事前学習モデルの方が性能が高かったが，ESOL, FreeSolv, Lipsoに関しては単純にMLMを適用したモデルの方が高かった．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason ・研究成果を雑誌論文に投稿中であるがまだ採択されていない．・匂い記述子の推定および一部の分子特性の推定では提案した事前学習モデルの方が良い推定性能を示したが，残りの３つの分子特性では単純にMLMを適用したモデルの方が性能が良かった．この原因が究明できていない．・匂いの合成に用いることができるような線形性を持つ匂いコードを得るために，入力したSMILESが表す分子の匂い記述子の推定だけでなく，ラットの嗅球画像の予測（復元）をタスクに追加することを計画していたが，着手できていない．嗅球画像がある物質の種類が約300と少なく，しかも，嗅球の形状の歪み（ラットの個体差）が大きく，効果が期待できないと考えたため，着手しなかった．嗅球画像に代えて，研究分担者の林が開発しているLSPRガスセンサーで匂い物質を測定した場合のセンサー出力を予測するというタスクを追加することを想定し，LSPRガスセンサーの出力で匂いが識別できるかどうかの予備実験を行った．
Strategy for Future Research Activity	・提案したSMILESの事前学習モデルは，その構成から，得られるSMILESのembeddingは，単純にMLMをタスクとするモデルを用いた場合より，分子の構造情報を捉えていると考えている．しかし，ESOL, FreeSolv, Lipsoについては，分子特性の推定性能が単純にMLMをタスクとした事前学習モデルを用いた場合の方が高くなっていた．この理由を解明するために，Therapeutics Data Commons (TDC)が提供するベンチマーク（22データセット）を利用した評価実験を行う．・匂いに関連する情報の大規模なデータの構築が匂いコードの推定の鍵となる．そのような情報を検討する．候補の一つとして引き続き，LSPRガスセンサーの出力を検討する．