診断支援の判断根拠に応用可能な医学知識データベース自動構築システムの開発

研究課題

研究課題/領域番号	22K12263
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分62010:生命、健康および医療情報学関連
研究機関	大阪大学
研究代表者	和田聖哉大阪大学, 大学院医学系研究科, 寄附講座助教 (40625381)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2023年度: 260千円 (直接経費: 200千円、間接経費: 60千円) 2022年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
キーワード	医学知識データベース / 自然言語処理 / 診断支援
研究開始時の研究の概要	本研究では、出典情報と紐付いた医学知識データベースを、自然言語処理技術を用いて自動的に構築するシステムの確立を目指します。本研究の成果物を自由に利用できる形で公開することで、これまでは知識データベースの作成コストが障壁となっていた診断支援システムに誰でも挑戦しやすくなるような土壌が醸成されることを期待しています。
研究実績の概要	本研究は、医学知識データベースを自動的に作成する技術の開発を目指しています。このデータベースは、医学文献と関連する情報がリンクされており、自然言語処理技術を利用して簡単にアクセスできます。このデータベースが整備されれば、信頼性の高い診断支援システムを開発することが容易になり、多くの人々が利用できるようになることが期待されます。研究目的は、医学文献から病名や症状などの情報を自動解析し、それをデータベースに登録するシステムの構築です。この目的を達成するためには、まず医学文献から病気の名前と関連する症状を抽出するモデルの構築が必要です。研究初年度では目的を達成するための技術選定を行い、ChatGPTなどの言語生成AIが本研究の遂行に活用できる可能性を見出しました。昨年度にはさらに言語生成AIを活用方法を洗練させ、モデル構築のための教師データを増やすことに取り組みました。特に、AIの出力を構造化データとして活用するための調整と、不適切な情報出力（ハルシネーション）の抑制に焦点を当て、プロンプトテンプレートの最適化を行いました。これにより、以前よりも効率的に高品質な教師データを生成できるようになりました。今後は、これまでの成果を基に、自動で医学知識を抽出しデータベースを構築するシステムの実現可能性を検証します。これにより、医療現場での診断支援がより効率的かつ正確に行えるようになり、広範囲な恩恵が期待されます。本研究は、医療業界における情報技術の活用を促進し、診断プロセスの質を向上させるための重要なステップとなることを目指しています。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 1. 言語生成AIの適用 ChatGPTのAPIが2023年3月に公開されたことで、言語生成AIを制御するための技術的知見がこの1年間で大きく蓄積されました。この知見を活用し、高性能なモデルを構築するために必要な高品質な教師データを大量に準備するプロセスを進めることができました。現在、これらの技術が本研究にも効果的に機能するかどうかの検証を行っています。 2. 高性能計算機器の活用新たに導入したワークステーションを活用し、様々な条件下でモデル構築の検証を高速に実施できるようになりました。この計算資源の充実が、研究目的の達成に向けたモデル調整作業を効率的かつ円滑に進行させることを可能にしました。
今後の研究の推進方策	これまでの検証で得られた成果を統合し、一つのシステムとして構築することを目指します。確立した技術に関しては随時学会発表や論文投稿を通じて情報を公開し、研究成果の普及に努める予定です。