巨大な異種混合グラフの深層表現学習による薬物関係抽出
Project/Area Number |
20K11962
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Toyota Technological Institute |
Principal Investigator |
三輪 誠 豊田工業大学, 工学(系)研究科(研究院), 教授 (00529646)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2020: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
|
Keywords | 薬物間相互作用 / DrugBank / 関係抽出 / 深層学習 / 知識グラフ / 表現学習 / BERT / グラフニューラルネットワーク / 畳み込みニューラルネットワーク |
Outline of Research at the Start |
薬物の使用・研究開発において、副作用情報を始めとした薬物に関する情報の整理・共有は重要である. 本研究では,薬物に関する情報を,薬物・属性・関連物質・関連文献などの内容も形式も異なる要素がつながった巨大なグラフとみなし,要素の関係が整合するように,それぞれの要素を包括的に表現する深層学習手法を実現し,得られた表現を関係抽出手法に利用し,高精度な関係抽出を目指す.
|
Outline of Annual Research Achievements |
本研究では,薬物データベースを対象に,薬物に関する様々な異種の分野知識を包括的に表現し,その表現を利用した分野知識を活用した薬物関係抽出を目指して研究を進めた.研究そのものは当初の計画通り進んでいたものの、その成果発表のために、本年度は研究期間を延長し、昨年度までに得られた成果を論文にまとめ,発表した。 研究機関全体では、まず、薬物データベースをもとに,薬物の名前・説明文・カテゴリ・関係などの薬物固有の情報に加え,薬物と関連するタンパク質などの様々な種類の情報を含む異種混合グラフを作成し、薬物の説明文や化学式の情報も含めて、統合的に表現する表現学習を実現した。この結果、どの情報を除いても、性能の低下が見られ、すべての情報を有効に活用できていることがわかった。 また、薬物データベースの情報を文書からの薬物関係抽出に利用する手法について研究を進め、まず大規模事前学習モデルBERTを用いた文書抽出により従来よりも高い性能を達成できることがわかった。さらに外部情報の利用については、まず、個別の情報の利用とその複数モデルのアンサンブルを中心に進め、外部情報により性能向上が実現でき、F値85.04%と高い性能のモデルを実現できた。さらに、知識グラフから学習した表現を入力する文書と対応付けたものを入力として、文書からの情報抽出を行う単一の統一されたモデルを実現し、最終的に85.40%というF値を達成した。当初は80%以上を数値目標としていたが、研究機関全体を通して、その数値目標を大幅に上回ることができた。 さらに、開発の過程でその周辺技術となる固有表現抽出、文献情報の表現学習、データベースのエントリと固有表現の関連付けなどの技術について調査・研究を行った。特に、その技術を評価するために参加したn2c2 shared taskではTrack内で参加者中1位の性能を達成することができた.
|
Report
(4 results)
Research Products
(28 results)