新たな医療知識の獲得に向けた医学系論文の文脈構造の解析と情報抽出への応用
Project/Area Number |
21K17815
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
西田 典起 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50890589)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | 談話解析 / 情報抽出 / 知識獲得 / 自然言語処理 / 医療言語処理 / コーパス / 談話構造 |
Outline of Research at the Start |
医学系分野における膨大な論文集合から有用な医療情報を抽出し、知識として体系化し、医療のために活用する方法論の開発は社会的に求められている。本研究では、医学系論文の談話構造 (文書構造、文脈構造) を解析し、そこから新たな医療知識を獲得することができるのではと考え、医学系論文からの知識獲得に向けた談話構造のスキームを再定義し、それに基づいたコーパス (ツリーバンク) を構築し、高精度かつ低コストな談話構造解析および解析された談話構造に基づく医療情報抽出 (固有表現抽出、関係抽出、照応解析) の方法論を開発する。また、開発した方法論の医学分野に限られない普遍性についても追及する。
|
Outline of Annual Research Achievements |
本研究課題では、医学生物学論文の談話構造の解析とそこからの知識獲得を行うために、(1)談話構造スキームの設計とコーパスの構築、(2)談話構造解析法の開発、(3)談話構造の情報抽出への応用に取り組む。 2022年度では、これらのうち(1)および(3)に主に取り組んだ。 具体的には、医学生物学論文の談話構造のスキーム設計とコーパス構築を前年度に引き続いて行い、GENIAコーパスに収録されている1,999件の医学生物学論文アブストラクトに対して人手で談話依存構造をアノテーションし、またアノテーションの質の向上もはかった。さらに、これらのアノテーションデータ上での機械学習手法のベンチマーク実験を行い、従来手法の精度と従来手法では解けない事例について分析を行った。現在はその成果を英語論文としてまとめ、国際論文誌に投稿するために準備中である。 また、情報抽出における基幹タスクの一つである文書レベル関係抽出における共参照構造の重要性と役割、共参照構造の活用方法を調査するために、CDRコーパスに収録される医学生物学論文アブストラクト1,500件に対して人手で共参照・照応構造をアノテーションした。その結果、文境界を越えるエンティティ間の関係性を同定するためには、共参照による間接的な接続を考慮することが重要であることを示した。この成果についても、それを英語論文としてまとめ、査読あり国際会議に投稿するために準備中である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実績の概要で記述したように、本年度は談話構造スキームの設計とコーパス構築、談話構造(共参照)の情報抽出 (文書レベル関係抽出) への応用に取り組んだ。2023年度初めは、これらの成果を論文化するための最終的な追加実験に取り組む必要があり、この点で進捗がやや遅れていると判断する。それ以降は、これまでアノテーションしたデータを用いて、医学生物学論文からの知識獲得のための談話解析法の開発と情報抽出への応用法の開発に取り組むフェイズに入り、この点ではおおむね順調に進展していると判断する。
|
Strategy for Future Research Activity |
談話解析を自動的に精度高く行うことは依然として難しい。また、2022年度には共参照構造の文書レベル関係抽出における重要性および活用方法について検討したが、文書レベル関係抽出を含む情報抽出タスクにおける談話解析の活用方法や重要性については不明な点が多い。そこで2023年度には、これまでアノテーションしたデータを用いて、医学生物学論文からの知識獲得のための談話解析法の開発と情報抽出への応用法の開発に取り組む。
|
Report
(2 results)
Research Products
(2 results)