2021 年度実施状況報告書

学術誌抄録から学習した疾患名の分散表現は疾患同士の距離を表現しうるか

研究課題

研究課題/領域番号	21K17848
研究機関	千葉大学
研究代表者	横川大樹千葉大学, 医学部附属病院, 特任助教 (80779869)
研究期間 (年度)	2021-04-01 – 2023-03-31
キーワード	自然言語処理 / Word2Vec / 分散表現 / 埋め込みベクトル / 疾患間距離 / 抄録
研究実績の概要	患者さんが患っている病気を診断する推論（診断推論）の過程は複雑で、習得には多くの時間が必要です。そのため、診断推論の習得を支援したり代替するシステムの開発が望まれていますが、実臨床に耐えうるものは未だ報告されていません。その理由の一つ、病気の名前を想起する時に、どのような疾患を想起すればよいか、その疾患と似ているため注意が必要な疾患はなにかを、数字で表現する手法が無いことが挙げられます。渡したとはある疾患と他の疾患の類似度（疾患間距離）について、これまでに大学病院の電子カルテの記載をもとに計算を試みました。しかし疾患の数が限られることなどから汎用性が乏しいことが問題でした。今回の研究では多くが日本語で記載されている医学に関する言語資料データベースとして、医学中央雑誌より抄録をお借りすることができました。これにより幅広い医学の分野での解析が可能になりました。得られた言語資料はWord2Vecという自然言語処理技術によって分散表現および単語の埋め込みベクトルを得るために使われました。単語埋め込みベクトルでは「急性心筋梗塞」や「急性虫垂炎」という医学用語が、２００次元のベクトルで表現されています。今回得られた分散表現は日本語の解析情報であるため日本発の自動診断システム・診断支援システム構築の礎となる可能性があり、悲劇的な見逃しや誤診を防ぐ未来につながると考えています。２０２１年度は「データの前処理、学習、分散表現と疾患ベクトルの獲得」を試みました。医学中央雑誌より２０２０年４月１６日更新の８号データまでのうち、抄録を含む1,842,818件のデータを得ました。データにMecabを使用した形態素解析を行い、学習に用いることのできた異なり語数は 189,785語、延べ語数は　169,875,231語でした。その後gensimのWored2Vecによって、単語の分散表現を得ました。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由コーパスよりWord2Vecを適用させるプログラムの汎用化が課題でしたが、過去の研究成果より、2021年度の研究期間内にプログラムを修正することができました。コーパスが大きいため繰り返しや学習に時間がかかりますが、当初の予定通り進行しております。
今後の研究の推進方策	2022年度は当初の予定通り、得られた単語埋め込みベクトル（疾患ベクトルとする）をもとに、得られた疾患ベクトルと他の疾患ベクトルとの類似度や距離を、コサイン距離などをもとに計算することで疾患感距離を得ることをまず行います。またこのベクトルが疾患同士の距離を表現するものとして妥当かどうかを調べるために、コーフェン相関係数や国際疾病分類第10版コードとのAdjusted Rand Index、Normalized Mutual Information、Adjusted Mutual Informationを計算していきます。
次年度使用額が生じた理由	サーバに装着する物理メモリが、半導体の流通不足などによる値段高騰のため購入できなかったため、次年度の物品費と合わせて購入する予定です。