2020 Fiscal Year Research-status Report
機械学習を用いた画像診断レポートからの情報抽出と利活用に関する研究
Project/Area Number |
20K07196
|
Research Institution | Osaka University |
Principal Investigator |
武田 理宏 大阪大学, 医学部附属病院, 准教授 (70506493)
|
Co-Investigator(Kenkyū-buntansha) |
松村 泰志 大阪大学, 医学系研究科, 教授 (90252642)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 画像診断レポート / 機械学習 / 自然言語処理 |
Outline of Annual Research Achievements |
大阪大学医学部附属病院の胸部CTレポートから、Observation, Clinical finding, Size Change, Characteristics, Anatomicallocation、Certaintyの用語を抽出するエンティティ抽出モデルを構築した。また、抽出した用語同士の関係の有無を分類するため関係分類モデルの構築をした。 放射線レポートのエンティティ抽出モデルの一般化可能性の評価を行った。大阪大学医学部附属病院の胸部CT、腹部CTレポートで検証した結果、胸部CTレポートでの学習済モデルが、少量の追加データでfine-tuningすることで、腹部CTレポートに適用可能であった。大阪大学医学部附属病院の胸部CTレポートで作成したエンティティ抽出モデルを大阪国際がんセンターの胸部CTレポートへ適応した結果、ベースラインと同等の精度が達成できていた。 機械学習で抽出した情報のうち、観察物や臨床所見に関する情報を対象として、その確信度を「Definite, Likely, May represent, Unlikely, Denial」の5段階に分類する分類モデルを構築した。評価指標として、厳密な一致のみを許容する「strict」な基準,正解の基準を緩めた「relaxed」な設定の2つで精度を評価した。実験では,F1-scoreがstrict:97.33%,relaxed:98.49%を達成した。 収集した知識の活用事例として、エンティティ抽出モデルを用いて胸部X線レポートから抽出した所見と部位情報から、胸部X線写真の病変部位に機械学習を用いてbounding boxを生成することに成功した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
新型コロナウイルスによる影響で、医学生によるアノテーション作業を開始するまでに時間を要した他は、おおむね順調に研究は進展している。
|
Strategy for Future Research Activity |
エンティティ抽出モデルで抽出した所見のうち、腫瘍に関連する用語に「良性・悪性・良悪不明」のラベリングを行う機械学習モデルを構築する。医学生によるアノテーション作業の後に、学習系の構築を目指す。 機械学習により収集された用語は、医学知識を持った研究者によりシソーラスを整備する 必要がある。同義語、類似語、上位下位概念を持つ用語をどのような形でデータベースに格納するかについて、検討を行う。 画像診断レポートの見落とし防止に向けた重要所見が記載される画像診断レポートの抽出を試みる。「初めて悪性腫瘍を診断されたレポート」を重要レポートとしてとらえる。自然言語処理により得られた陰影表現、診断表現、修飾語表現、サイズに関する情報から、悪性腫瘍が記述されるレポートを同定する。次に、画像診断レポートを時系列に比較し、初めて悪性腫瘍が記述されたレポートを「初めて悪性腫瘍を診断されたレポート」と判別する。判定結果を当院のがん登録情報と比較することで、その精度について検討を行う。
|
Causes of Carryover |
新型コロナウイルスの影響で、成果発表を予定していた学術集会が中止、オンライン開催となったこと。 新型コロナウイルスの影響で、医学生によるアノテーション(知識収集)作業に遅れが生じたこと。
|