2020 Fiscal Year Annual Research Report
Word2Vecによる医学用語の分散表現は疾患間の数学的距離を定量的に表現するか
Project/Area Number |
19K16941
|
Research Institution | Chiba University |
Principal Investigator |
横川 大樹 千葉大学, 医学部附属病院, 特任助教 (80779869)
|
Project Period (FY) |
2019-04-01 – 2021-03-31
|
Keywords | 診療録 / 自然言語処理 / 分散表現 / 埋め込みベクトル / 疾患間距離 / 症状間距離 / Word2Vec / Doc2Vec |
Outline of Annual Research Achievements |
本研究では千葉大学医学部附属病院 総合診療科に受診した患者さんの診療録(電子カルテのテキストデータ)より、深層学習の技術の一つであるWord2VecとDoc2Vecを用いて、単語や文章の分散表現を得ることを目的としていました。分散表現では単語や文章が200次元のベクトルで表現できるのため、数学的な計算が可能となります。これにより疾患と疾患、症状と症状、似ている診療録の記載などの類似度を示すことができると考えました。 2013年から2019年に記録された26565件の診療録を、個人情報に配慮して抽出しました。診療録を単語の並びにして、まずWord2Vecを実施しました。学習ではのべ10578020語を用いて、単語と単語の近さや関係などを深層学習で計算しました。その結果、例えば「痛み」と「疼痛」、「咳嗽」と「咳」、「花粉症」と「アレルギー性鼻炎」などが似ている単語として計算されました。これは日本語の医学用語として正しい結果と解釈できます。これにより、これまで医師が教科書や経験で理解していた「ある疾患とある疾患の似ている度合い」が定量的に数字で表現できるようになるので、医師が臨床診断を行うときに病名の想起し忘れなどがないように、コンピュータが助けるシステムが構築できる可能性があります。医師も人間である以上、悲劇的な誤診を避けることは我々の大きな目標です。個人の努力だけでなくシステムとしてサポートできる可能性が期待できます。 本研究では診療録と診断とを結びつけて学習させることで、診療録の内容から診断名を予測することができるかどうかも検討しました。Doc2Vecによる文章のベクトルを得て、多層パーセプトロンにより分類を試みましたが、全体の精度は50%と必ずしも高い結果にはなりませんでした。診断のバリエーションが多いこと、学習に使った診療録の数が少なかったことが原因の一つと考えています。
|