研究課題/領域番号 |
20K07196
|
研究機関 | 大阪大学 |
研究代表者 |
武田 理宏 大阪大学, 医学部附属病院, 准教授 (70506493)
|
研究分担者 |
松村 泰志 独立行政法人国立病院機構大阪医療センター(臨床研究センター), その他部局等, 研究員 (90252642)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 自然言語処理 / 機械学習 / 画像診断レポート |
研究実績の概要 |
画像診断レポートから機械学習を用いた自然言語処理により、情報情報抽出を行う研究である。構造化アルゴリズムは大きく「エンティティ抽出/関係分類/確信度分類」の3つのサブモジュールから構成されている。確信度分類は、観察物や臨床所見に関するを対象として、事前に定義した5段階に分類し、機械学習による分類モデルを構築した。5段階の分類は3名の医学生が独立して実施した。厳密な一致の評価では、F1-scoreが97.33%、正解の基準を緩めた評価では98.49%を達成した。 次に、腫瘍に関連する用語にラベリングを実施した。複数の医学生が独立して、画像診断レポートから抽出した約6,000個の所見用語に対して、その用語が腫瘍に関する用語が判定した上で、「良性・悪性・良悪不明」の判定を行った。 臨床利用、研究利用を想定して、抽出したデータのデータベースへの格納を行った。最初に、病院データベースにある放射線診断報告書テーブルからレコードをエクスポートし、CSV形式で保存した。次に、CSVファイルを共通の構造をもつDWHデータベースの放射線科レポートテーブルにインポートした。テーブル内のレコードは構造化アルゴリズムにより整理され、表形式およびJSON形式のテーブルに出力した。画像オーダ情報は、JJ1017(放射線領域における標準コード)とのマッピングを行い標準化を行った。 画像診断レポートから情報抽出した所見をアノテーションとして、画像機械学習を行うモデルを拡張するため、胸部CTを対象に研究を進めた。胸部CT画像の肺尖部、気管分岐部、横隔膜直上部を自動認識するモデルを構築し、異なる患者の胸部CT画像で、同じ高さの画像を選び出すことに成功した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
画像診断レポートの構造化とデータベースの格納に成功した。 シソーラスの整備については、コロナ禍で学生によるラベル作業が依頼できなかったため、当初の予定よりやや遅れている。 しかし、今後、シソーラスの整備を行うことで、臨床応用の事例を研究成果として報告できる予定である。
|
今後の研究の推進方策 |
画像診断レポートから抽出した部位情報について、シソーラスの定義を行う。 用語は2回以上出現したもので30000語程度あるため、複数の医学生によりアノテーション作業を行い、不一致であったものは、医師が最終判断を行うこととする。 前年度、がん所見の用語の整理を行っている。 がん所見とその部位が明らかになることで、はじめてがんが指摘されたレポートを検出することができるため、臨床応用の一例を示すことができる予定である。 また、画像診断レポートから間質性肺炎の患者を抽出し、対応する胸部CT画像から、間質性肺炎の疾患の悪化の検出や、予後予測をする機会学習モデルの構築について、検討を行う。
|
次年度使用額が生じた理由 |
国際学会の中止、国内学会のオンライン参加となったため。 シソーラス整備の作業が、新型コロナウイルス感染症蔓延のため、作業依頼ができなかったため。
|