研究課題
本研究では,薬物データベースを対象に,薬物に関する様々な異種の分野知識を包括的に表現し,その表現を利用した分野知識を活用した薬物関係抽出を目指して研究を進めた.研究そのものは当初の計画通り進んでいたものの、その成果発表のために、本年度は研究期間を延長し、昨年度までに得られた成果を論文にまとめ,発表した。研究機関全体では、まず、薬物データベースをもとに,薬物の名前・説明文・カテゴリ・関係などの薬物固有の情報に加え,薬物と関連するタンパク質などの様々な種類の情報を含む異種混合グラフを作成し、薬物の説明文や化学式の情報も含めて、統合的に表現する表現学習を実現した。この結果、どの情報を除いても、性能の低下が見られ、すべての情報を有効に活用できていることがわかった。また、薬物データベースの情報を文書からの薬物関係抽出に利用する手法について研究を進め、まず大規模事前学習モデルBERTを用いた文書抽出により従来よりも高い性能を達成できることがわかった。さらに外部情報の利用については、まず、個別の情報の利用とその複数モデルのアンサンブルを中心に進め、外部情報により性能向上が実現でき、F値85.04%と高い性能のモデルを実現できた。さらに、知識グラフから学習した表現を入力する文書と対応付けたものを入力として、文書からの情報抽出を行う単一の統一されたモデルを実現し、最終的に85.40%というF値を達成した。当初は80%以上を数値目標としていたが、研究機関全体を通して、その数値目標を大幅に上回ることができた。さらに、開発の過程でその周辺技術となる固有表現抽出、文献情報の表現学習、データベースのエントリと固有表現の関連付けなどの技術について調査・研究を行った。特に、その技術を評価するために参加したn2c2 shared taskではTrack内で参加者中1位の性能を達成することができた.
すべて 2024 2023
すべて 雑誌論文 (2件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (9件) (うち国際学会 3件)
Journal of Biomedical Informatics
巻: 143 ページ: 104433~104433
10.1016/j.jbi.2023.104433
巻: 144 ページ: 104416~104416
10.1016/j.jbi.2023.104416