全身CT画像と診断レポートを複合した機械学習による大規模医療データセットの構築
Project/Area Number |
22K12152
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Yamaguchi University |
Principal Investigator |
間普 真吾 山口大学, 大学院創成科学研究科, 教授 (70434321)
|
Co-Investigator(Kenkyū-buntansha) |
呉本 尭 日本工業大学, 先進工学部, 教授 (40294657)
平野 靖 山口大学, 医学部附属病院, 准教授 (90324459)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 深層学習 / 医用画像 / 診断レポート / 異常検知 / 自然言語処理 / 自己符号化器 |
Outline of Research at the Start |
医療データに対するコンピュータ支援診断は長く期待されながら広く普及するには至っていない.これは多様な部位や疾患に対する教師データを用意することが困難であることに起因する.本研究では,最小限の教師データ作成コストで高い信頼性を有する部位・疾患ラベルつき大規模医療データセットの構築を目的とし,教師ラベルを必要とせずに得られる可能な限りの情報,またはわずかな教師ラベルつきデータを手掛かりとした深層学習による医用画像・診断レポート解析統合型のアノテーションシステムを構築する.
|
Outline of Annual Research Achievements |
研究代表者らは,大規模なPET-CTデータとそれに対応する診断レポートを保有しており,これを機械学習に適したラベル付きデータセットの構築につなげる研究を行っている.しかし,診断レポートは全身に対して記述されており,部位ごとの記述ではないため,そのままでは各部位ごとの機械学習を行うことが難しい.したがって,今年度は東京大学大学院医学系研究科医療AI開発学講座が提供しており,大規模な臨床テキストで事前学習済みの自然言語系ニューラルネットワークであるUTH-BERTを用いて,診断レポートを部位ごとの記述に分割し,部位ごとの診断レポートとして再構築するシステムの開発を行った.本システムは,文単位で部位ラベルを付与するものであるが,これに前文の文脈を考慮するよう改良することで,識別性能が向上することを明らかにした.
クラスラベルの付与されていない大規模画像データを機械学習に利用しやすいデータセットとするために,異常検知手法によって正常と異常に分類する研究を行った.具体的には,これまでに研究を行ってきたDAGMM(Deep Autoencoding Gaussian Mixture Model)とCAAE(Convolutional Adversarial Autoencoder)を組合せた新しい異常検知モデルを提案し,これを胸部CT画像に適用することで,正常CTスライスのみを訓練データとして学習し,テストデータの異常スライスを分離する研究を行った.DAGMMは正常データの分布を生成し,そこから外れたデータを異常と判定する方式であるが,これにCAAEによる正常データの分布をコンパクトにまとめる正則化を付与することによって,正常データと異常データの特徴量の分離が良くなることが明らかとなり,異常検知精度の向上も確認できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究テーマである大規模医療データセットの構築に向けて,医用画像と診断レポートの活用の両面から研究を推進し,それぞれ良好な結果を得た.したがって,次年度に向けた基盤を構築でき,さらなる改良・融合が可能な状況であり,おおむね順調に進展していると判断した.
|
Strategy for Future Research Activity |
今年度の成果を基盤として以下の研究を推進する. 診断レポートの分類モデルについては,AIとユーザが協働で効率的なラベリングを行い,AIの性能向上を図る能動学習方式を構築する.さらに,文脈をより正確に把握できる注意機構を有するモデルを構築し,これと画像特徴を組み合わせる研究を行う. 医用画像の分類に関し,異常データを全く用いない異常検知方式では実用的な精度を達成することが難しい.したがって,半教師あり学習型異常検知モデルを構築し,少数の異常データあるいは疑似異常データを活用した研究を行う.
|
Report
(1 results)
Research Products
(7 results)