| 研究課題/領域番号 |
24K10822
|
| 研究種目 |
基盤研究(C)
|
| 配分区分 | 基金 |
| 応募区分 | 一般 |
| 審査区分 |
小区分52040:放射線科学関連
|
| 研究機関 | 関西医科大学 |
研究代表者 |
武川 英樹 関西医科大学, 医学部, 助教 (60526870)
|
| 研究分担者 |
中村 聡明 関西医科大学, 医学部, 教授 (60420452)
姉帯 優介 関西医科大学, 医学部, 助教 (70809376)
小池 優平 関西医科大学, 医学部, 助教 (90866154)
|
| 研究期間 (年度) |
2024-04-01 – 2027-03-31
|
| 研究課題ステータス |
交付 (2024年度)
|
| 配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2026年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2025年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2024年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
|
| キーワード | 大規模言語モデル / LLM / 自然言語処理 / 人工知能 / 医学物理 |
| 研究開始時の研究の概要 |
医療には電子カルテ上の医師によるカルテ記載や看護師による看護記録、各種検査レポートなど様々な文章があるが、それらの多くは構造化されていないフリーテキストかつ多くの専門用語で構成されているため、古典的自然言語処理による応用は限定的であった。また、深層学習型など近代的自然言語処理においても実施目的(タスク)毎に言語モデルを構築する必要があり、開発・管理が非常に煩雑であった。 そこで研究課題では、医療文章の有効活用を飛躍的に向上させる自然言語処理を実現させるために、医療ドメインに特化、特に「放射線医療」に特化した大規模言語モデルの構築およびその臨床応用を行う。
|
| 研究実績の概要 |
本研究課題では、医療文章の有効活用を飛躍的に向上させる自然言語処理を実現させるために、医療ドメインに特化、特に「放射線医療」に特化した大規模言語モデルの構築およびその臨床応用を行う。大規模言語モデル(LLM:Large Language Model)の性能は学習データの品質に大きく依存し、汎用LLMは医療文章を対するLLMの適用ではその精度が問題となり、英語や日本語といった学習するデータの言語も自然言語処理の性能に影響を及ぼす重要な因子となる。 そこで、医療文章の有効活用を飛躍的に向上させる自然言語処理を実現させるために、医療ドメインに特化、特に放射線医療に特化した大規模言語モデルの構築およびその臨床応用を目的としている。 令和6年度(2024年度)は、当初の研究実施計画に基づき①汎用LLM選定、②追加学習データ収集に関する研究を進めた。本年度における進捗は下記の通りである。 ① 汎用LLM選定:複数のパブリック利用可能な汎用LLMを用いて、実施済み研究で分類を行った放射線診断レポート記載内容から骨転移陽性・陰性かの分類タスクを実施した。Confusion Matrixから求められる精度、感度、特異度、AUROCにより性能評価・比較を行った。 ② 追加学習データ収集:追加学習データとして、放射線診断レポートおよび放射線治療症例の診療記録の収集準備を行った。当初計画では2024年度からのデータ収集としていたが、2025年度に予定されている電子カルテ更新を待ってから収集を行った方が効率的に行えることが判明した。そのため、実際の収集は電子カルテが更新されてから行うこととした。
|
| 現在までの達成度 |
現在までの達成度
3: やや遅れている
理由
実施済み研究で分類済み放射線診断レポート記載内容を用いて複数の汎用LLMの分類タスクの性能評価・比較を実施した。しかしながら、計算資源が莫大となるため、汎用LLMを蒸留した小型モデルの使用も含めて再検討することとした。 データ収集のためのデータベースが構築できており収集準備は行えているが、実際の収集は電子カルテ更新後としたため当初計画より遅れている。
|
| 今後の研究の推進方策 |
言語モデルは汎用LLMを蒸留した小型モデルの使用も含めて性能評価・比較を実施する。 放射線診断レポートおよび放射線治療症例の診療記録の収集は電子カルテ更新後に開始する。 選定した言語モデルならびに追加学習データを用いて、特化型の言語モデルの構築を進める。
|