2022 Fiscal Year Annual Research Report
学術誌抄録から学習した疾患名の分散表現は疾患同士の距離を表現しうるか
Project/Area Number |
21K17848
|
Research Institution | Chiba University |
Principal Investigator |
横川 大樹 千葉大学, 医学部附属病院, 特任助教 (80779869)
|
Project Period (FY) |
2021-04-01 – 2023-03-31
|
Keywords | 自然言語処理 / Word2Vec / 分散表現 / 埋め込みベクトル / 疾患間距離 / 抄録 / 医中誌 |
Outline of Annual Research Achievements |
疾患を診断する方法(診断推論)は複雑で習得には多くの時間を必要とするため、診断推論の習得を支援したり代替するシステムの開発が望まれている。しかし未だ実際の医療の現場で使用できるシステムはない。システムの作成には疾患同士の類似度(疾患間距離)の計算が有用と考えられるが、これまでの報告では疾患の数が少なく汎用性が乏しかった。疾患間距離が複数の疾患群に渡って計算できると、日本発の自動診断システム・診断支援システ ム構築の礎となる可能性があり、悲劇的な見逃しや誤診を防ぐ未来につながる。 私は医学文書のデータベースである医学中央雑誌より1,842,156件の抄録をお借りしてWord2Vecを使用した深層学習を行い分散表現および単語の埋め込みベクトルを得ることができた。 これらのベクトルは200次元の数字で疾患を表す単語の分散表現(疾患ベクトル)であり数学的な距離が算出できた。なお前処理と学習には Pythonを、分かち書きおよび形態素解析は MeCabを使用した。 学習に使用した異なり語数は189,785個、のべ語数は169,875,236個だった。学習時間は311分55秒だった。 得られた疾患ベクトルはICD-10(国際疾病分類第10版)と完全一致する8031個だった。同じICDコードを持つ疾患が存在するため、ICDコードは3915種類を得た。このベクトルを階層的クラスタリングの手法と距離定義の組み合わせごとに内的妥当性尺度のコーフェン相関係数を計算したところ、centridおよびeuclideanの組み合わせのとき0.7748だった。またICDコードとのAdjusted Rand Index、Normalized Mutual Information、Adjusted Mutual Informationの最大値はそれぞれ、0.3208、0.8783、0.4242だった。
|