研究課題/領域番号 |
21K19796
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 九州大学 |
研究代表者 |
冨浦 洋一 九州大学, システム情報科学研究院, 教授 (10217523)
|
研究分担者 |
林 健司 九州大学, システム情報科学研究院, 教授 (50202263)
|
研究期間 (年度) |
2021-07-09 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2023年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2021年度: 3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
|
キーワード | 匂い物質 / 匂い情報の定量化 / SMILES / 分子構造 / 匂い記述子 / 事前学習 / Transformer / 匂い識別子 / グラフ / 匂い情報 / 匂いコード / 分子記述子 / 嗅球画像 |
研究開始時の研究の概要 |
感性情報である匂いを客観的に扱うには匂いを定量的に表す必要がある.本研究では匂いを定量化したものを匂いコードと呼ぶ.任意の匂い物質に対してこの匂いコードが求まれば,匂いの識別,匂いの類似性評価,匂いの合成,匂いセンサーの開発などに役立つ. 本研究では,ラットに約300種類の匂い物質を嗅がせたときの嗅球の糸球体の活性状態を撮影した画像,分子の物理化学的な特性を数量化した匂い物質の分子記述子,SMILES等で表された分子構造,人による匂いの分類である匂い記述子などの情報を基に,任意の匂い物質に対する匂いコードを求める.
|
研究実績の概要 |
BERTは自然言語処理で用いられる,句や文のembeddingの事前学習モデルである.BERTはTransformer Encoderで構成され,一部の単語をマスクした入力からマスクした単語を予測するというタスク(MLM)を用いて事前学習をしている.分子構造を文字列で表現したSMILESのembeddingをBERTと同様にしてMLMを用いて事前学習し,これを利用して分子特性を推定する手法が提案されている.しかし,自然言語文と異なり,SMILESには冗長性がないため,単純にMLMを用いてSMILESのembeddingを求めるのは適切でない. 昨年度,SMILESのembbeddingの事前学習モデルとしてBERTを改良したモデルを考案した.このモデルでは,2つのTransformer Encoderを用いる.1つ目のEncoderの入力は標準形のSMILESであり,embeddingに変換される.2つ目のEncoderの入力は1つ目のEncoderに入力した標準形のSMILESと同じ分子を表すSMILES(標準形とは限らない)であり,かつ,その一部をマスクしたものである.2つ目のEncoderにはこれ以外に1つ目のEncoderで求まった標準形のSMILESのembeddingも入力される.2つ目のEncoderはこの情報を用いて,入力のSMILESのマスクされた部分の記号を推定する. 昨年度は,これを利用して匂い記述子の推定を行った.今年度は,提案した事前学習モデルを用いて,分子特性を予測するためのデータセットBACE, BBBP, ESOL, FreeSolv, Lipsoを用いた評価実験を行った. BACE,BBBPについては提案した事前学習モデルの方が性能が高かったが,ESOL, FreeSolv, Lipsoに関しては単純にMLMを適用したモデルの方が高かった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
・研究成果を雑誌論文に投稿中であるがまだ採択されていない. ・匂い記述子の推定および一部の分子特性の推定では提案した事前学習モデルの方が良い推定性能を示したが,残りの3つの分子特性では単純にMLMを適用したモデルの方が性能が良かった.この原因が究明できていない. ・匂いの合成に用いることができるような線形性を持つ匂いコードを得るために,入力したSMILESが表す分子の匂い記述子の推定だけでなく,ラットの嗅球画像の予測(復元)をタスクに追加することを計画していたが,着手できていない.嗅球画像がある物質の種類が約300と少なく,しかも,嗅球の形状の歪み(ラットの個体差)が大きく,効果が期待できないと考えたため,着手しなかった.嗅球画像に代えて,研究分担者の林が開発しているLSPRガスセンサーで匂い物質を測定した場合のセンサー出力を予測するというタスクを追加することを想定し,LSPRガスセンサーの出力で匂いが識別できるかどうかの予備実験を行った.
|
今後の研究の推進方策 |
・提案したSMILESの事前学習モデルは,その構成から,得られるSMILESのembeddingは,単純にMLMをタスクとするモデルを用いた場合より,分子の構造情報を捉えていると考えている.しかし,ESOL, FreeSolv, Lipsoについては,分子特性の推定性能が単純にMLMをタスクとした事前学習モデルを用いた場合の方が高くなっていた.この理由を解明するために,Therapeutics Data Commons (TDC)が提供するベンチマーク(22データセット)を利用した評価実験を行う. ・匂いに関連する情報の大規模なデータの構築が匂いコードの推定の鍵となる.そのような情報を検討する.候補の一つとして引き続き,LSPRガスセンサーの出力を検討する.
|