研究課題/領域番号 |
21K19796
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 九州大学 |
研究代表者 |
冨浦 洋一 九州大学, システム情報科学研究院, 教授 (10217523)
|
研究分担者 |
林 健司 九州大学, システム情報科学研究院, 教授 (50202263)
|
研究期間 (年度) |
2021-07-09 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2023年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2021年度: 3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
|
キーワード | 匂い物質 / 匂い情報の定量化 / SMILES / 分子構造 / 匂い識別子 / 事前学習 / Transformer / グラフ / 匂い記述子 / 匂い情報 / 匂いコード / 分子記述子 / 嗅球画像 |
研究開始時の研究の概要 |
感性情報である匂いを客観的に扱うには匂いを定量的に表す必要がある.本研究では匂いを定量化したものを匂いコードと呼ぶ.任意の匂い物質に対してこの匂いコードが求まれば,匂いの識別,匂いの類似性評価,匂いの合成,匂いセンサーの開発などに役立つ. 本研究では,ラットに約300種類の匂い物質を嗅がせたときの嗅球の糸球体の活性状態を撮影した画像,分子の物理化学的な特性を数量化した匂い物質の分子記述子,SMILES等で表された分子構造,人による匂いの分類である匂い記述子などの情報を基に,任意の匂い物質に対する匂いコードを求める.
|
研究実績の概要 |
分子物性を予測するためのTransformerモデルを構築した。このモデルでは、入力は分子を構成する原子の列である。構造情報をembeddingに含めることができるように、原子間の結合と原子間の距離を重みに反映させてself-attentionを改良している。10万個の分子のSMILESデータを収集し、入力分子が特定の分子部分構造を持つか否かの予測実験を行った。予測性能はF1値で0.98を達成した。また、正例の予測に寄与した原子をEncoder-Decoder Attentionを利用して調べたところ、対象となる部分構造中の原子を正確にアノテーションしていることがわかった。さらに、4462個の分子とその匂い記述子を収集し、提案モデルを用いて98個の匂い記述子を予測し、平均F1値0.33を得た。また、0.45以上のF1値を得た19個の匂い記述子については、Encoder-Decoder Attentionを利用して、分子部分構造と匂いの質の関係を要約することを試みた。 別のモデルとして、自然言語処理で用いられているBERTを改良した事前学習モデルを考案した。BERTはTransformer Encoderで構成され、事前学習のためのタスクの一つとして、一部の単語をマスクした入力からマスクした単語を予測するというタスク(MLM)を用いている。しかし、自然言語文と異なり SMILES では1記号が置き換わっただけで別の分子を表すことになるため、単にBERTを用いてSMILESのembeddingを求めるのは適切でない。匂い分子の匂い記述子の予測において、事前学習を用いない場合、及び、BERTのMLMだけを用いた場合と比較して、提案する事前学習モデルを用いた場合が最も良い予測性能を示した。 上記の2つのモデルで得られる分子のembeddingを匂いコードとして用いることを検討中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
これまでに提案されたモデルによる分子物性予測や匂い分子の匂い記述子の予測と比較して同等かそれ以上の性能を示すモデルを構築できている。また、SMILESのembeddingの事前学習モデルでは、得られた事前学習済みモデルを匂い識別子の予測タスク等でfine tuningすることで、少ないトレーニングデータでも高い性能を示すことができるため、得られたembeddingを匂いコードに利用できる可能性が高い。
|
今後の研究の推進方策 |
匂いの合成に使えるような匂いコードは線形性(物質AとBを混合したときの匂いが物質Cと類似するならば、物質Aの匂いコードと物質Bの匂いコードの線形和は物質Cの匂いコードに類似する)を持つ必要がある。R4年度に開発した手法で得られる分子のembeddingは線形性を持つ保証はない。このため、線形性を持つと予想されるラットの嗅球画像の予測もタスクに追加することで、線形性を有するembedding、つまり匂いコードを求める手法を開発する。
|