2021 Fiscal Year Research-status Report
A Study on Natural Language Processing Analysis of Radiology Reports using New Artificial Intelligence
Project/Area Number |
21K15843
|
Research Institution | Nagoya University |
Principal Investigator |
伊藤 倫太郎 名古屋大学, 医学系研究科, 特任助教 (80813336)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 放射線医学 / 自然言語処理 / 人工知能 / 画像診断報告書 |
Outline of Annual Research Achievements |
放射線科読影医にとって医用画像の読影を行い、臨床医に最適な情報を提供する画像診断報告書を作成することが主要な職務の一つである。その際には多種多様な画像、経時的な画像変化、臨床情報を含めた文書情報を把握した上で、報告書を記載する必要がある。しかし、放射線科読影医は日常的に大量の画像診断報告書を記載する必要があり、1件あたりに時間をかけて読影を行うことは難しいのが現状である。本研究では2018 年末にGoogle 社の発表したBERT (Bidirectional EncoderRepresentations from Transformers) を始めとする最先端の自然言語処理技術を画像診断学に適応するものである。AIを使用した自然言語処理を用いて放射線画像診断報告書の解析を行い、診断の補助となる最適な情報を提供することを目的とする。 2021年度には名古屋大学医学部附属病院の過去の画像診断報告書の抽出を行い、1177647例のデータを抽出した。これらに対して一部にラベル付けを手動で行った。現在も継続してラベル付けを行っている。元データに対して古典的な自然言語処理を用いて単語の出現頻度や単語一覧に関して予備解析を行った。これらの予備解析から単語の統一や文字形態の統一がされていないことが判明したため、前処理としてこれらの統一を行った。研究予定よりデータ数が増加したため、モダリティ別にデータベースの構築が可能となった。このたComputed Tomography、Magnetic Resonance Imaging、核医学、Positron Emission Tomographyに関してそれぞれデータベースの構築を行った。 自然言語処理技術を含めた人工知能技術について情報収集を行い、解析を行った。これにより得られた知見について2021年度には3回の招待講演と1回の海外ポスター発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2021年度には解析を行うデータベースの構築を行った。50000例の研究データの作成を行うことを計画していたが、情報の欠損や脱落があることを考慮し、当院の過去30年分の全画像診断報告書を抽出対象とすることを決定した。データの総数は1177647例となった。これらのデータのうち、欠損を含むものを除外し、データラベルの付与を行った。データの総数が増えたため予定していたラベル付けに関しては当初の予定より遅延している。 人工知能分野における自然言語処理の発展は著しく、2021年のみでも新規の革新的な発表がいくつも行われている。このため、解析に使用する予定であったアルゴリズムの更新と試験運用にも時間を要した。
|
Strategy for Future Research Activity |
本研究は3年の期間を設定している。研究データの収集とラベル付けが第1段階である。第2段階ではラベル付けされたデータを用いて疾患の抽出と疾患の病勢情報の抽出について人工知能を用いて検討を行う。これらにおいてできたモデルを使用して読影実験を行う予定である。研究の推進方向に変更はないが、データ数が20倍強となったためラベル付けに時間を要している。手動のラベル付けでは時間がかかり過ぎるため、ラベル付けの高速化を同時並行で開発中である。まずは全読影報告書内に出現する単語に関しての一覧を取得する。一定の頻度の単語のみを辞書に登録する。この辞書を用いることでラベル付けを半自動化する予定である。 人工知能に関してはBERTを使用する予定であったが、現在ではより発展したモデルも発表されているので、それらについても同時に検討する予定である。医療用の辞書で訓練された人工知能と一般用の辞書で訓練された人工知能を併用する予定である。 2023年度はラベル付けの終了と第1実験である病変の抽出に関して研究を継続する予定である。ラベル付けに関しては手動に加え、半次郎による高速化を導入する予定である。データベースを50000件、5000件、3000件に切り分けを行う。これに関してはモダリティ別で検討を行う。これは画像診断報告書の記載形式がモダリティにより特徴があるためである。これらのデータ数が一定数に達し次第、病変抽出研究を行う予定である。
|
Causes of Carryover |
半導体需要の変化により予定していたワークステーションがより安価に入手することができたため、物品費が軽減しました。また、使用するソフトウェアに関しては大学内でのライセンス契約であるものが含まれていますが、現在これらの使用を中止しているため消耗品費が予定より減額しています。使用を再開する際にこれらの費用を計上する予定です。
|