新たな医療知識の獲得に向けた医学系論文の文脈構造の解析と情報抽出への応用
Project/Area Number |
21K17815
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
西田 典起 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (50890589)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | 知識獲得 / 情報抽出 / 文書レベル関係抽出 / 談話解析 / 自然言語処理 / 医療言語処理 / コーパス / 談話構造 |
Outline of Research at the Start |
医学系分野における膨大な論文集合から有用な医療情報を抽出し、知識として体系化し、医療のために活用する方法論の開発は社会的に求められている。本研究では、医学系論文の談話構造 (文書構造、文脈構造) を解析し、そこから新たな医療知識を獲得することができるのではと考え、医学系論文からの知識獲得に向けた談話構造のスキームを再定義し、それに基づいたコーパス (ツリーバンク) を構築し、高精度かつ低コストな談話構造解析および解析された談話構造に基づく医療情報抽出 (固有表現抽出、関係抽出、照応解析) の方法論を開発する。また、開発した方法論の医学分野に限られない普遍性についても追及する。
|
Outline of Annual Research Achievements |
医学生物学知識獲得は、論文などの入力文書から有用な関係情報を抽出し、それによって既存のナレッジグラフ・オントロジーなどの知識資源を自動的に改善・補完することを目的とする。しかし、知識獲得技術が現実において十分に実用化されているとは言い難い。その原因の一つとして、入力文書から最終的な出力形式まで一貫して動いて、専門家のニーズを適切に反映し、誰でも利用しやすいシステムが存在していないことが挙げられる。これは、これまでの知識獲得技術が、薬剤や疾病名の言語表現(固有表現)を同定するNamed Entity Recognition (NER)、固有表現を言語資源上のエンティティ (ID) に紐づける Entity Disambiguation (ED), エンティティ間の関係を同定する Document-Level Relation Extraction (DocRE) という各サブタスク(モジュール)に閉じて研究されてきたことが背景にある。 上記の背景を受けて、2023年度は、まず医学生物学知識獲得の実用的なベースラインシステムを構築した。構築したベースラインシステムは、NER、ED、DocREモジュールから構成され、各モジュールは、従来のBERTベースの教師あり学習モデルと、近年発展が進んでいる大規模言語モデルとIn-Context Learningを組み合わせたモデルを実装しており、各モジュールの組み合わせや手法についてはユーザーが自由に設定できるようになっている。 また、上記の研究において、大規模言語モデルの構造出力の課題を発見し、それを軽量コストで大幅に改善することができる手法を提案した。 さらに、理研BRCと共同研究を行い、現実のオントロジーを対象とした知識獲得技術の開発と運用実験を行った。 上記の研究成果については、2024年5月と6月それぞれに英語論文として投稿準備中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要で記述したように、2023年度では、医学生物学知識獲得のための実用的なベースラインシステムの構築、本タスクにおける大規模言語モデルの改善手法の提案、現実のオントロジーを対象とした知識獲得システムの構築と運用実験、という3つの課題を遂行した。これらは現在論文準備中であり(3つ目の提出締切は5月17日)、おおむね順調に進展していると判断した。
|
Strategy for Future Research Activity |
2024年度の上半期では、上記の成果の論文投稿とソフトウェアの公開を行う。2024年度の下半期では、構築したベースラインシステムをもとに医学生物学知識獲得の現状の課題を精査し、昨年度までに取り組んだ談話解析技術によって問題が改善されるのか検証したい。
|
Report
(3 results)
Research Products
(2 results)