2020 Fiscal Year Research-status Report
Data structuring of electronic medical records and development of artificial intelligence-based model for disease diagnostic support using a novel natural language processing technology
Project/Area Number |
20K18874
|
Research Institution | Gunma University |
Principal Investigator |
野口 怜 群馬大学, 医学部附属病院, 助教 (50828861)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 電子カルテデータ / 自然言語処理 / 非構造化データ / テキストデータ構造化 / 診断支援AI / 疾患判別モデル / 症例マトリクス |
Outline of Annual Research Achievements |
本研究は、電子カルテのテキストデータを活用し、診療録の記述に基づいて病名の診断支援を行うAI構築を目指すものである。2020年度は、比較的定型化された文書である退院サマリを用いて、学習データのベースとなる「症例マトリクス」の構築手法の確立に注力した。 症例マトリクスとは、分析上扱いにくいテキストデータを、1症例ごとに病名や病歴、症状の発生状況を表形式に構造化し、マシンリーダブルな形式に変換したものであり、そのまま病名判別AIの学習データとして活用できる。 まず、当院における循環器内科などの退院サマリ約10年分を匿名化処理後、正規表現(文字列のパターン抽出)により、診断病名や主訴、現病歴、既往歴といったセクションごとにテキストを抽出して1症例1レコード形式に構造化した。診断病名については、奈良先端科学技術大学院大学ソーシャル・コンピューティング研究室より公開されている「万病辞書」を用いて標準病名に名寄せし、複数病名ある場合は、1病名ごとに分割して構造化した。次に、主訴・既往歴・家族歴の自由テキスト記述を対象に単語分割処理を行い、症例ごとに出現単語集計を取ることで、症例マトリクスの構築手法を確立した。なお、多くの表記揺れ(「せき」「咳」「咳嗽」など)が含まれたため、単語ベクトル化手法(ある単語の前後に存在する共起語の出現確率から単語を数値化する手法)により単語間の類似性を数値化し、表記揺れを集約する処理も組み入れた。 症例マトリクスを用いて、試験的に病名判別の機械学習モデル構築を試みたところ、 特定の疾患を最大で再現率87%で検出可能なモデルを構築できた。また、表記揺れ集約では、誤字や略語もまとめることができ、有効な手法であることが確認できた。今後、本手法の診療活用に向けて、日常診療の経過記録を用いた病名判別を試みるとともに、対象疾患の拡大などによりモデルの汎用性も向上させていきたい。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2020年度は、当初の計画通り、退院サマリを用いた「症例マトリクス」の構築手法を確立でき、概ね順調に進展している。予備的なモデル構築では、当初の想定以上の精度が得られ、まだまだ改善の余地はあるものの、本手法の有効性が示唆されたと考える。 また、本手法を、一般公開されている新型コロナウイルス罹患者の経過・記録テキストに適用したところ、罹患者の症状や傾向についての洞察を得ることができ、本手法の汎用性も示唆されたと考える。
|
Strategy for Future Research Activity |
今後は、より診療現場での活用可能性を見出していくために、日常診療における経過記録テキストの活用を試みる。本手法確立において用いた退院サマリテキストとは異なり、定型化されておらず、口語調や略語の多い文体であることが想定されるため、アルゴリズムを改善しながら、本手法の適用可能性を検討する。 また、テキスト以外の検査などの数値データなどとも組み合わせることで精度向上を図るとともに、対象疾患の拡大などによりモデルの汎用性も向上させていきたい。
|
Causes of Carryover |
新型コロナウイル感染症拡大に伴い、国内/海外の出張のほとんどがキャンセルとなっため、旅費が大幅に削減されたことが最大の理由である。
|