研究課題/領域番号 |
20K11833
|
研究機関 | 福井工業大学 |
研究代表者 |
芥子 育雄 福井工業大学, 工学部, 教授 (40815867)
|
研究分担者 |
中川 肇 富山大学, 学術研究部医学系, 教授 (30135256)
辻岡 和孝 金城大学, 社会福祉学部, 講師 (50724960)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 意味表現学習 / 電子カルテ / 病名推定 / ICD10 / ニューラルネットワーク / 退院サマリ / 単語意味ベクトル辞書 / 病名シソーラス |
研究実績の概要 |
ニューラルネットワークは学習結果の解釈が困難なことや大規模学習データが必要なため,症例が少ない病名が多い退院サマリの病名推定への応用には課題があった.病名推定とは標準病名マスタのICD10コードを退院サマリに自動付与することである.研究代表者は,ニューラルネットワークの隠れノードを有限個で意味を代表する特徴単語で表現し,単語意味ベクトル辞書を単語と隠れノード間の重みの初期値に導入することにより,学習データが十分に与えられなくてもセンチメント分析の精度が高く学習結果の解釈性を向上させる意味表現学習を提案した.単語意味ベクトル辞書は百科事典を元に選択した264種類の特徴単語と2万語の基本単語との関連性を記述した汎用的な辞書である. 本研究の目的は,病名推定を対象に①単語意味ベクトル辞書の医療分野への対応,②深層学習との融合による解釈性のある病名推定の性能向上,③特徴単語空間での主訴分析のためのプラットフォーム化である.令和2年度の実績は①に関連した以下の3点である. 1.病名を7階層に分類した病名シソーラス「病名T辞書」を導入し,医療分野向け単語意味ベクトル辞書を構築した.基本単語は「病名T辞書」の用語36,768語とし,その中から264語を特徴単語に選択した.病名のみを特徴単語としても,汎用的な概念分類を特徴単語とした単語意味ベクトル辞書と比べて病名推定精度は同程度であることを確認した. 2.病名を特徴単語とすることにより,症例数トップ10の病名について,意味表現学習の結果に解釈性があることを主観的に判断した.ランダムに選択した症例の264次元ベクトルにおいて,重みの大きな特徴単語トップ3には症例と関係のある病名が入ることを確認した. 3.新旧電子カルテを対象とした病名推定の比較を行い,退院サマリに正確なICD10コードが付与されていると精度が向上することを明らかにした.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
「病名T辞書」から特徴単語の選択方法は,病名推定精度が最も良くなる方法を採用した.病名シソーラス7階層の優先語を対象に以下の2種類の方法により特徴単語を抽出した. (1)7階層全てから関連する用語が多い順に集めて特徴単語264語を抽出.(2)1階層ずつ優先語全て(2階層以降は5文字以下の一般的用語)を特徴単語として7階層まで増やし,1階層の特徴単語34語,7階層全て含めた特徴単語473語を抽出. これら8種類の特徴単語を元に8種類の単語意味ベクトル辞書(以下辞書と呼ぶ)を構築した.旧電子カルテの退院サマリ(経過要約)を対象に意味表現学習を行い,症例数上位20の病名を対象に機械学習を用いて精度を評価した.機械学習には従来の辞書で最も精度が良かったSVMを用いた.評価の結果,精度が最も良かった(1)の264語の特徴単語を採用した.精度は従来の辞書を用いた場合と同等であり,病名を特徴単語としたことにより解釈性は大幅に向上した(症例ベクトルの重みの大きな上位3件の特徴単語に正解病名と関連した病名がある)ことを主観的に判断し,令和2年度の目標を達成できた.また,富山大学附属病院の旧電子カルテの退院サマリ(94083件,3204病名)に加え,新電子カルテの退院サマリ(61772件,2849病名)を研究対象とした.今回構築した医療分野向け辞書を用いて,症例数上位20病名の病名推定の評価結果を以下に示す.括弧は従来の辞書を用いた評価結果を示す. (1)旧電子カルテ:精度87.7% (87.6%),マクロ平均F値:83.8 (83.7),(2)新電子カルテ:精度88.4% (88.8%),マクロ平均F値:88.8 (88.8),(3)新旧統合電子カルテ:精度90.9%,マクロ平均F値:90.5 新電子カルテでは,より正確にICD10コードが付与されており,マクロ平均F値の5ポイント向上につながった.
|
今後の研究の推進方策 |
今後の研究の推進方策について以下に示す. 1.医療分野向け辞書における特徴単語,基本単語をICD10コードの標準形に変換する.ICD10コードが付与されている万病辞書の出現形と「病名T辞書」の用語を突合させ,用語の文字数5文字以内に絞り込むと36768語の用語は3936語となる.ICD10コードの標準形で特徴単語,基本単語が構成される辞書を構築し,病名推定精度の評価を行う. 2.「病名T辞書」の症状を特徴単語に追加する.「病名T辞書」の説明欄より症状の用語を手作業で抽出し,症状の辞書を構築中である.出現頻度の高い症状を特徴単語に追加することにより,上位・下位語や同義語の関係ではない用語間に関連性を付けることが期待できる.症状を追加した辞書を用いて病名推定精度と解釈性の評価を行う. 3. オーバーサンプリングの手法を用いることにより,症例数の少ない病名を含めてモデルを構築し,実データを用いて評価を行う.人工的にデータを生成するSMOTEを用いて,200症例以上の135病名について最大症例数3128件に各病名の症例ベクトルを人工的に増やして病名推定の評価を行ったところ,精度99.3%となった.症例数が少ない病名に対して,オーバーサンプリングが効果があるのか実データで評価を行う. 4. 最新のディープラーニング手法を用いた病名推定との精度比較を行う.word2vecを用いて症例数上位20件の病名の経過要約を対象に単語ベクトルを学習させ,一層のBiLSTMによる病名推定精度は85%程度にとどまる.意味表現学習とSVMによる性能改善を追求するか,深層学習との融合を進めるか,BERTの事前学習モデルを使って病名推定精度の評価を行い,見極める. 5.実証実験用アプリについて検討する.病名推定モデルを用いて,症状の入力により,病名を回答するアプリを構築し,ユーザインタフェースについての検討を進める.
|
次年度使用額が生じた理由 |
医療辞書(病名T辞書の説明欄より症状の用語のみ抽出し、症状の辞書)作成に金城大学の学部生4人を2021年2月以降も継続して雇用している.進捗状況は2021年4月23日段階で,50%(3936件中,1980件修了)である.残額20万円は本作業の完了に必要である.翌年度分の謝金30万円は解釈性のユーザテストに利用予定である. コロナ禍のため,学会発表のための旅費約23万円を繰り越した.翌年度分と合わせて48万円は,成果の一部は診療情報管理学会への論文投稿を予定しており,首都圏への出張が可能になれば国内会議・研究会で発表する.さらにオンライン国際会議へのポジションペーパーの投稿を検討しており,英文校正や会議参加費に利用予定である.
|