研究課題/領域番号 |
21K17815
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
西田 典起 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (50890589)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 知識獲得 / 情報抽出 / 文書レベル関係抽出 |
研究実績の概要 |
医学生物学知識獲得は、論文などの入力文書から有用な関係情報を抽出し、それによって既存のナレッジグラフ・オントロジーなどの知識資源を自動的に改善・補完することを目的とする。しかし、知識獲得技術が現実において十分に実用化されているとは言い難い。その原因の一つとして、入力文書から最終的な出力形式まで一貫して動いて、専門家のニーズを適切に反映し、誰でも利用しやすいシステムが存在していないことが挙げられる。これは、これまでの知識獲得技術が、薬剤や疾病名の言語表現(固有表現)を同定するNamed Entity Recognition (NER)、固有表現を言語資源上のエンティティ (ID) に紐づける Entity Disambiguation (ED), エンティティ間の関係を同定する Document-Level Relation Extraction (DocRE) という各サブタスク(モジュール)に閉じて研究されてきたことが背景にある。 上記の背景を受けて、2023年度は、まず医学生物学知識獲得の実用的なベースラインシステムを構築した。構築したベースラインシステムは、NER、ED、DocREモジュールから構成され、各モジュールは、従来のBERTベースの教師あり学習モデルと、近年発展が進んでいる大規模言語モデルとIn-Context Learningを組み合わせたモデルを実装しており、各モジュールの組み合わせや手法についてはユーザーが自由に設定できるようになっている。 また、上記の研究において、大規模言語モデルの構造出力の課題を発見し、それを軽量コストで大幅に改善することができる手法を提案した。 さらに、理研BRCと共同研究を行い、現実のオントロジーを対象とした知識獲得技術の開発と運用実験を行った。 上記の研究成果については、2024年5月と6月それぞれに英語論文として投稿準備中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実績の概要で記述したように、2023年度では、医学生物学知識獲得のための実用的なベースラインシステムの構築、本タスクにおける大規模言語モデルの改善手法の提案、現実のオントロジーを対象とした知識獲得システムの構築と運用実験、という3つの課題を遂行した。これらは現在論文準備中であり(3つ目の提出締切は5月17日)、おおむね順調に進展していると判断した。
|
今後の研究の推進方策 |
2024年度の上半期では、上記の成果の論文投稿とソフトウェアの公開を行う。2024年度の下半期では、構築したベースラインシステムをもとに医学生物学知識獲得の現状の課題を精査し、昨年度までに取り組んだ談話解析技術によって問題が改善されるのか検証したい。
|
次年度使用額が生じた理由 |
2023年度は、ハイブリッド形式で開催される国際会議が多く、旅費の支出が少なかった。また、所属組織の計算サーバーが増強され、個人で計算資源を管理・購入する必要が減少した。最終年度では、これまでの成果を論文化し、国際会議での発表機会が増加することが予想される。次年度使用額はこれらの用途に使用される。
|