巨大な異種混合グラフの深層表現学習による薬物関係抽出
Project/Area Number |
20K11962
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Toyota Technological Institute |
Principal Investigator |
三輪 誠 豊田工業大学, 工学(系)研究科(研究院), 准教授 (00529646)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2020: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
|
Keywords | 薬物間相互作用 / DrugBank / 関係抽出 / 深層学習 / 知識グラフ / 表現学習 / BERT / グラフニューラルネットワーク / 畳み込みニューラルネットワーク |
Outline of Research at the Start |
薬物の使用・研究開発において、副作用情報を始めとした薬物に関する情報の整理・共有は重要である. 本研究では,薬物に関する情報を,薬物・属性・関連物質・関連文献などの内容も形式も異なる要素がつながった巨大なグラフとみなし,要素の関係が整合するように,それぞれの要素を包括的に表現する深層学習手法を実現し,得られた表現を関係抽出手法に利用し,高精度な関係抽出を目指す.
|
Outline of Annual Research Achievements |
本研究では,薬物データベースを対象に,薬物に関する分野知識を包括的に表現し,その表現を利用した分野知識を活用した薬物関係抽出を目指している. 本年度は,昨年度作成した異種混合グラフを包括的に表現する深層学習により得られた表現を,当初の目的であった薬物関係抽出へ適用し,その性能の向上ができることを示した.昨年度までは,表現に利用した情報が化学式や説明文の情報を含んだものになっておらず限定的であり,また,それぞれの情報を個別に追加した薬物関係抽出手法のアンサンブルモデルを構築する事で様々な情報を利用した性能向上を達成しており,分野知識を包括的に表現して,利用するという目標には至っていなかった.本年度は化学式や説明文の情報を含めた,包括的な表現を作成し,その表現を薬物関係抽出手法に利用することでモデルを複数作成せずとも様々な分野知識を活用し,性能の向上が得られることを確認し,結果として85.40%のF値を単一のモデルで達成した.さらに,個別の情報を削除する事で性能の低下も確認し,それぞれの知識がモデルの性能向上に寄与していることも明らかにした. さらに,文書から関係を抽出する際に必要な文書中で薬物を表す固有表現の抽出,文献情報の表現学習,データベースのエントリと固有表現の対応付け・リンキング,薬物に近いタンパク質や遺伝子など他のエンティティとの関係への利用など,研究を実際の文書に利用する際に必要な手法について調査・研究を行った.特に,固有表現抽出の技術を評価するために,参加したn2c2 shared taskではTrack内で参加者中1位の性能を達成することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り,異種混合グラフを対象にした表現学習を行い,それを利用して薬物関係抽出の性能向上を達成することができた.昨年度の課題であったアンサンブルによる計算コストの増加や限定的な外部情報の利用という問題を解決し,一つのモデルを対象に,異種情報の種類を増やすほど性能が向上する一貫性のあるモデルを実現でき,結果として従来モデルを上回る性能を達成しており,順調に進展したと言える.
|
Strategy for Future Research Activity |
本研究課題での薬物に関する分野知識を包括的に表現し,その表現を利用した分野知識を活用した薬物関係抽出を実現するという目標については,達成できており,結果も良い結果が得られている.しかし,利用できていない外部情報の利用,文書情報の分野知識への利用や文書内の薬物への言及の抽出,文書内の薬物とデータベースの対応付など様々な部分について十分な研究ができていない部分が残っており,今後の研究を通じて,更なる発展を目指す予定である.また,成果の対外発信のために,期間の延長を行なっており,成果を発信していく予定である.
|
Report
(3 results)
Research Products
(17 results)