研究実績の概要 |
患者さんが患っている病気を診断する推論(診断推論)の過程は複雑で、習得には多くの時間が必要です。そのため、診断推論の習得を支援したり代替するシステムの開発が望まれていますが、実臨床に耐えうるものは未だ報告されていません。その理由の一つ、病気の名前を想起する時に、どのような疾患を想起すればよいか、その疾患と似ているため注意が必要な疾患はなにかを、数字で表現する手法が無いことが挙げられます。渡したとはある疾患と他の疾患の類似度(疾患間距離)について、これまでに大学病院の電子カルテの記載をもとに計算を試みました。しかし疾患の数が限られることなどから汎用性が乏しいことが問題でした。 今回の研究では多くが日本語で記載されている医学に関する言語資料データベースとして、医学中央雑誌より抄録をお借りすることができました。これにより幅広い医学の分野での解析が可能になりました。得られた言語資料はWord2Vecという自然言語処理技術によって分散表現および単語の埋め込みベクトルを得るために使われました。単語埋め込みベクトルでは「急性心筋梗塞」や「急性虫垂炎」という医学用語が、200次元のベクトルで表現されています。 今回得られた分散表現は日本語の解析情報であるため日本発の自動診断システム・診断支援システム構築の礎となる可能性があり、悲劇的な見逃しや誤診を防ぐ未来につながると考えています。 2021年度は「データの前処理、学習、分散表現と疾患ベクトルの獲得」を試みました。医学中央雑誌より2020年4月16日更新の8号データまでのうち、抄録を含む1,842,818件のデータを得ました。データにMecabを使用した形態素解析を行い、学習に用いることのできた異なり語数は 189,785語、延べ語数は 169,875,231語でした。その後gensimのWored2Vecによって、単語の分散表現を得ました。
|