2022 Fiscal Year Research-status Report
新たな医療知識の獲得に向けた医学系論文の文脈構造の解析と情報抽出への応用
Project/Area Number |
21K17815
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
西田 典起 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50890589)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 談話解析 / 情報抽出 / 知識獲得 / 自然言語処理 / 医療言語処理 |
Outline of Annual Research Achievements |
本研究課題では、医学生物学論文の談話構造の解析とそこからの知識獲得を行うために、(1)談話構造スキームの設計とコーパスの構築、(2)談話構造解析法の開発、(3)談話構造の情報抽出への応用に取り組む。 2022年度では、これらのうち(1)および(3)に主に取り組んだ。 具体的には、医学生物学論文の談話構造のスキーム設計とコーパス構築を前年度に引き続いて行い、GENIAコーパスに収録されている1,999件の医学生物学論文アブストラクトに対して人手で談話依存構造をアノテーションし、またアノテーションの質の向上もはかった。さらに、これらのアノテーションデータ上での機械学習手法のベンチマーク実験を行い、従来手法の精度と従来手法では解けない事例について分析を行った。現在はその成果を英語論文としてまとめ、国際論文誌に投稿するために準備中である。 また、情報抽出における基幹タスクの一つである文書レベル関係抽出における共参照構造の重要性と役割、共参照構造の活用方法を調査するために、CDRコーパスに収録される医学生物学論文アブストラクト1,500件に対して人手で共参照・照応構造をアノテーションした。その結果、文境界を越えるエンティティ間の関係性を同定するためには、共参照による間接的な接続を考慮することが重要であることを示した。この成果についても、それを英語論文としてまとめ、査読あり国際会議に投稿するために準備中である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実績の概要で記述したように、本年度は談話構造スキームの設計とコーパス構築、談話構造(共参照)の情報抽出 (文書レベル関係抽出) への応用に取り組んだ。2023年度初めは、これらの成果を論文化するための最終的な追加実験に取り組む必要があり、この点で進捗がやや遅れていると判断する。それ以降は、これまでアノテーションしたデータを用いて、医学生物学論文からの知識獲得のための談話解析法の開発と情報抽出への応用法の開発に取り組むフェイズに入り、この点ではおおむね順調に進展していると判断する。
|
Strategy for Future Research Activity |
談話解析を自動的に精度高く行うことは依然として難しい。また、2022年度には共参照構造の文書レベル関係抽出における重要性および活用方法について検討したが、文書レベル関係抽出を含む情報抽出タスクにおける談話解析の活用方法や重要性については不明な点が多い。そこで2023年度には、これまでアノテーションしたデータを用いて、医学生物学論文からの知識獲得のための談話解析法の開発と情報抽出への応用法の開発に取り組む。
|
Causes of Carryover |
2022年度はCOVID-19の影響が依然として強く、学会の開催形式等もオンラインが主流であり、当初の計画にくらべて国際会議や海外大学への出張が激減した。
|