研究課題/領域番号 |
20K11833
|
研究機関 | 福井工業大学 |
研究代表者 |
芥子 育雄 福井工業大学, 工学部, 教授 (40815867)
|
研究分担者 |
中川 肇 富山大学, 学術研究部医学系, 教授 (30135256)
辻岡 和孝 金城大学, 社会福祉学部, 講師 (50724960)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 意味表現学習 / 電子カルテ / 病名推定 / ICD10 / ニューラルネットワーク / 退院サマリ / 単語意味ベクトル辞書 / 病名シソーラス |
研究実績の概要 |
ニューラルネットワークは学習結果の解釈が困難なことや大規模学習データが必要なため、症例が少ない病名が多い退院サマリの病名推定への応用には課題があった。病名推定とは標準病名マスタのICD10コードを退院サマリに自動付与することである。研究代表者は、ニューラルネットワークの隠れノードを有限個で意味を代表する特徴単語で表現し、単語意味ベクトル辞書を単語と隠れノード間の重みの初期値に導入することにより、学習データが十分に与えられなくても文書分類の精度が高く学習結果の解釈性を向上させる意味表現学習を提案した。単語意味ベクトル辞書は百科事典を元に選択した264種類の特徴単語と2万語の基本単語との関連性を記述した汎用的な辞書である。 本研究の目的は、病名推定を対象に(1)単語意味ベクトル辞書の医療分野への対応、(2)深層学習との融合による解釈性のある病名推定の性能向上、(3)特徴単語空間での主訴分析のためのプラットフォーム化である。 令和3年度の実績は(1)と(2)に関連した以下の3点である。 1.退院サマリの経過要約を意味表現学習することで得られる「264個の特徴単語ベクトル値」と「年齢」「性別」「診療科名」を説明変数、「診断病名コード」を目的変数とした、「意味表現学習+SVM」による本邦版CAC(Computer Assisted Coding:診療情報管理士が行うICD10コーディング業務をアシストするツール)構築手法を提案した。 2.CAC構築手法において、汎用的な単語意味ベクトル辞書に対して、病名シソーラスから264病名の特徴単語を選択した場合の方が、病名推定の精度がF値で10ポイント以上向上することを確認できた。 3.ビジュアル統計ソフトStatFlexを用いた解釈性評価の結果、経過要約の意味表現学習(教師なし学習)により、病名推定の根拠となる病名の上位概念を提示できることが分かった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
理由 新旧2種類の電子カルテ(以下、電カル)の退院サマリを対象に汎用的な単語意味ベクトル辞書を用いたCAC構築手法を提案し、新電カル記載上位20病名に対する病名推定の評価を行った。新電カル上位20病名に対する旧電カルの非線形SVMによる学習モデルを利用した場合マクロ平均F値0.595であった。新電カルの学習モデルを利用するとマクロ平均F値0.874であった。結果の差異の要因として新旧電カルのデータ分布が異なること、詳細不明コード「.9 」の入力等が影響していることが示唆された。 次に病名シソーラスの病名を特徴単語として選択し、医療文書をこの特徴単語の数値情報で表現したベクトル値の取得を自動で行う医療用意味表現学習手法を確立した。本手法を用いて、特徴単語を264病名とした場合に前述のマクロ平均F値0.595に対する値が0.712となり、相対値で20%以上改善した。機械学習には処理が高速な線形SVMを用いた結果である。旧電カルのみSMOTEによりデータを拡張して学習モデルを作成した場合のマクロ平均F値は0.724まで改善した。 さらに新電カル上位20病名について、経過要約の意味表現学習による264次元ベクトル値の重みの平均が最も大きい特徴単語を調べた。その結果、重みが大きい上位6特徴単語は、感覚器障害、新生児障害、消化管障害、循環器障害、肝障害、血液疾患となった。これら6特徴単語について、StatFlexを用いて経過要約の重みを可視化したところ、7割の病名では経過要約の意味表現学習により、病名推定の根拠となる上位概念(特徴単語)を提示できることが分かった。尚、誤った病名は、上位概念が特徴単語に含まれていなかった。 提案手法により、データ分布が異なる電子カルテでも推定病名を得ると共にその推定病名の上位概念となる病名を得ることができるので、推定病名の根拠を与えることができることを検証した。
|
今後の研究の推進方策 |
今後の研究の推進方策について以下に示す. 1.病名シソーラスからの特徴単語の選定条件を6文字未満の病名としているが、6文字以上の上位概念6病名(代謝・栄養障害、呼吸器系患、生殖器系疾患、骨障害および軟骨障害、泌尿器系障害、内分泌系疾患)を特徴単語に追加し、どの病気にも寄与しない特徴単語を削除する。これによる解釈性と病名推定精度への影響を調査する。 2.特定の診療科(眼科)を対象に病名推定の精度と解釈性(病名シソーラス上の眼の病気の最上位概念「感覚器障害」の次の上位概念)を評価する。また、眼科の専門医により、実用可能性を主観的に評価する。 3.症状を特徴単語に追加する。「病名T辞書」の説明欄より症状の用語を手作業で抽出した症状辞書を用いて、出現頻度の高い症状を特徴単語に追加することにより、上位・下位語や同義語の関係ではない用語間に関連性を付けることが期待できる。10病名以上に出現する症状45語を追加し、機械学習に効いていない特徴単語45語を削除した特徴単語264語を用いて病名推定精度と解釈性の評価を行う。 4.意味表現学習+機械学習による病名推定精度を追求するため、AutoML(PyCaret)による評価、および深層学習(transformer)の事前学習モデルを用いた病名推定との精度比較を行う。 5.症状を入力すると推定病名の上位概念と症状ベクトルを返すPCアプリと、連携して症状ベクトルを入力すると学習済みモデルを用いて推定病名を出力するWebアプリのプロトタイプを構築する。また、意味表現学習はPython2.7と旧バージョンのGensim(Doc2vec)及びシェルスクリプトで実装しているため、Python3.8とGensim(Doc2vec)の最新バージョンに対応させると共に誰もが扱えるようにツール化を行う。
|
次年度使用額が生じた理由 |
医療辞書(病名T辞書の説明欄より症状の用語のみ抽出し、症状の辞書)作成に金城大学の学部生4人を継続して雇用したが、学生が忙しく2021年度は20%の進捗(2020年度は50%)で、15万円が次年度繰り越しとなった。また、解釈性の評価はStatFlexを用いて実施したため、ユーザテストの謝金が必要なくなった。さらにコロナ禍で出張が出来なかったため、トータルで次年度使用額613,005円となった。 症状の辞書については、70%の抽出は完了しているため作業を完了し、2022年度は統計処理による特徴単語の選別のフェーズに移る。 2023年度以降に科研費の成果を実証フェーズに移すためには、現状のPython2.7やGensimの古いバージョンで意味表現学習システムが実装されていること、及びツール化出来ていないことが大きな課題になる。これをPython3.8とGensimの最新バージョンへの移植と使い易いツール化が必須だが、ここに研究時間を割くことは困難である。そこで、使用計画は、依然続くコロナ禍で困難になると思われる海外出張費と合わせて、120万円程度で外注(業務委託)による作業が可能か早急に見極める。
|