研究課題/領域番号 |
21K17815
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
西田 典起 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (50890589)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2021年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
|
キーワード | 知識獲得 / 情報抽出 / 文書レベル関係抽出 / 談話解析 / 自然言語処理 / 医療言語処理 / コーパス / 談話構造 |
研究開始時の研究の概要 |
医学系分野における膨大な論文集合から有用な医療情報を抽出し、知識として体系化し、医療のために活用する方法論の開発は社会的に求められている。本研究では、医学系論文の談話構造 (文書構造、文脈構造) を解析し、そこから新たな医療知識を獲得することができるのではと考え、医学系論文からの知識獲得に向けた談話構造のスキームを再定義し、それに基づいたコーパス (ツリーバンク) を構築し、高精度かつ低コストな談話構造解析および解析された談話構造に基づく医療情報抽出 (固有表現抽出、関係抽出、照応解析) の方法論を開発する。また、開発した方法論の医学分野に限られない普遍性についても追及する。
|
研究実績の概要 |
医学生物学知識獲得は、論文などの入力文書から有用な関係情報を抽出し、それによって既存のナレッジグラフ・オントロジーなどの知識資源を自動的に改善・補完することを目的とする。しかし、知識獲得技術が現実において十分に実用化されているとは言い難い。その原因の一つとして、入力文書から最終的な出力形式まで一貫して動いて、専門家のニーズを適切に反映し、誰でも利用しやすいシステムが存在していないことが挙げられる。これは、これまでの知識獲得技術が、薬剤や疾病名の言語表現(固有表現)を同定するNamed Entity Recognition (NER)、固有表現を言語資源上のエンティティ (ID) に紐づける Entity Disambiguation (ED), エンティティ間の関係を同定する Document-Level Relation Extraction (DocRE) という各サブタスク(モジュール)に閉じて研究されてきたことが背景にある。 上記の背景を受けて、2023年度は、まず医学生物学知識獲得の実用的なベースラインシステムを構築した。構築したベースラインシステムは、NER、ED、DocREモジュールから構成され、各モジュールは、従来のBERTベースの教師あり学習モデルと、近年発展が進んでいる大規模言語モデルとIn-Context Learningを組み合わせたモデルを実装しており、各モジュールの組み合わせや手法についてはユーザーが自由に設定できるようになっている。 また、上記の研究において、大規模言語モデルの構造出力の課題を発見し、それを軽量コストで大幅に改善することができる手法を提案した。 さらに、理研BRCと共同研究を行い、現実のオントロジーを対象とした知識獲得技術の開発と運用実験を行った。 上記の研究成果については、2024年5月と6月それぞれに英語論文として投稿準備中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実績の概要で記述したように、2023年度では、医学生物学知識獲得のための実用的なベースラインシステムの構築、本タスクにおける大規模言語モデルの改善手法の提案、現実のオントロジーを対象とした知識獲得システムの構築と運用実験、という3つの課題を遂行した。これらは現在論文準備中であり(3つ目の提出締切は5月17日)、おおむね順調に進展していると判断した。
|
今後の研究の推進方策 |
2024年度の上半期では、上記の成果の論文投稿とソフトウェアの公開を行う。2024年度の下半期では、構築したベースラインシステムをもとに医学生物学知識獲得の現状の課題を精査し、昨年度までに取り組んだ談話解析技術によって問題が改善されるのか検証したい。
|