自然言語処理を用いた画像診断レポートのビッグデータ疾患サーベイランス実証研究
Project/Area Number |
22K10535
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 58030:Hygiene and public health-related: excluding laboratory approach
|
Research Institution | Juntendo University |
Principal Investigator |
明石 敏昭 順天堂大学, 医学部, 准教授 (40623492)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 自然言語処理 / データベース / サーベイランス |
Outline of Research at the Start |
COVID-19肺炎の世界的なパンデミックの初期において、PCR検査の不足が問題となったが、CTが普及している日本においては画像診断が迅速・簡便であることから、肺炎のスクリーニングとしてCTによる画像診断が有効であった。そこで、本邦屈指の医療系ビッグデータである日本医用画像データベース(J-MID)にある約100万件の画像診断レポートを利用して、特定の疾患や画像所見の有無の事実性を判定するBERT言語モデルを開発し、自然言語処理を用いることによって、疾患の全国的な発生状況をモニタリング可能であることを実証し、画像診断レポートによる疾患サーベイランス法を確立する。
|
Outline of Annual Research Achievements |
医療情報を全国10施設の大学病院から一元的に画像および画像診断レポートを収集している日本医用画像データベース(Japan-Medical Image Database; JMID)には100万件を超える検査が収集されているが、2023年4月にシステムをオンプレミスサーバーからクラウド化した。このデータ利用環境の向上によって、大量のデータを容易に検索し、ダウンロードすることを可能にした。 当初は対象とする疾患名もしくは画像所見の有無を判定するBERTを用いた事実性判定モデルを作成することを目標としていた。しかし、特定の言葉ではなく、任意の言葉の事実性を判定するモデルの方が有用性は高いことから、後者を作成した。これにより任意の言葉の事実性を検索することが可能となった。 さらに、このモデルの有用性を検証するためのデータとして、ある一日の画像診断レポートから「COVID-19肺炎疑い」症例を検索し、臨床的に「肺炎」と「非肺炎」の画像とレポートのデータセット(90件、有病率0.03)を作成した。これらを解析し、レポートの自然言語処理によるサーベイランスの有用性を検討していく予定である。このデータセットでは既にCT画像によるCOVID-19肺炎典型度を判定するAIによる精度も判明している(RSNA分類を基準として、感度は0.65、特異度は0.74)ので、レポートの自然言語解析とAIによる画像解析による精度の比較を行うことも可能になっている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画を変更して、特定の疾患ではなく、任意の言葉の事実性を判定する自然言語処理モデルを作成した。これにより任意の言葉の事実性を検索することが可能となった。 さらに、このモデルの有用性を検証するためのデータとして、ある一日の画像診断レポートから臨床的に「COVID-19肺炎」と「非COVID-19肺炎」の画像とレポートのデータセット(90件、有病率0.03)を作成した。引き続き計画通りに、このデータセットを用いて言語処理によるサーベイランスの有用性を検討する。
|
Strategy for Future Research Activity |
レポートの自然言語処理によるサーベイランスの有用性を検討するにあたって、作成したデータセットを用いて精度を算出する。また、AIによる画像解析による精度と比較を行う。 課題として、データベースのクラウド化を行ったことで、今後はデータの出力形式が異なり、これまで利用していたシステムが使用できなくなった。今後は適切に対応しなければならない。
|
Report
(1 results)
Research Products
(6 results)