2022 Fiscal Year Research-status Report
Data structuring of electronic medical records and development of artificial intelligence-based model for disease diagnostic support using a novel natural language processing technology
Project/Area Number |
20K18874
|
Research Institution | Gunma University |
Principal Investigator |
野口 怜 群馬大学, 医学部附属病院, 助教 (50828861)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 電子カルテデータ / 自然言語処理 / 非構造化データ / テキストデータ構造化 / 診断支援AI / 疾患判別モデル / 症例マトリクス / 類似症例予測AI |
Outline of Annual Research Achievements |
本研究は、電子カルテのテキストデータを活用し、診療録の記述に基づいて疾患名の診断支援を行うAI構築を目指すものである。 2020年度に確立した「症例マトリクス」の構築手法に基づいて、2021年度は、この症例マトリクスを学習データとした機械学習モデルの構築に注力した。具体的には、疾患判別および、類似症例予測の機械学習モデル構築を試み、いずれも一定の精度を持つモデルが得られ、本研究のアプローチの有用性が示された。 一方で、この症例マトリクスは、出現する単語種類の豊富さから、超高次元の構造になりやすく、多くの非本質的なノイズ単語を含む点が課題であった。 そこで、2022年度は、スパース推定により症例マトリクスから疾患特異的な特徴語を選択することで、モデルの精度は保ちながら、100分の1程度にまで次元を圧縮することができた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の計画では、 ・2020年度:退院サマリーデータ抽出およびデータ構造化の手法構築 ・2021年度:症例マトリクス構築手法の確立 ・2022年度:疾患判別AIの構築 であったが、2022年度は疾患判別AIの構築まで着手できており、概ね順調と言える。 一方で、次元圧縮後の単語リストを確認すると、次元圧縮後も依然として非本質的な単語も残存していることが明らかとなり、今後は医学知識の組み入れによる各単語への重み付けや、非本質的な単語の除外方法について検討したいと考えている。このため、研究機関を1年延長し、この課題に対処することとした。
|
Strategy for Future Research Activity |
先述した、医学知識の組み入れによる各単語への重み付けや、非本質的な単語の除外方法について、まずは着手する。併せて、より実運用に近づけるよう、モデルチューニングおよび、モデル汎用性の向上に注力していく。特に、精度についてはまだまだ向上が必要である。退院サマリーだけでなく、日常診療の診察記事や各種検査結果のデータも組み合わせて活用していくことで、さらなる精度向上を図りたい。
|
Causes of Carryover |
感染拡大防止のためにオンラインでの学会参加がメインとなったため、出張費が大きく削減されたことと、研究計画の見直しにより研究期間を延長することとなり、次年度以降の活動予算として残すため。
|