研究課題/領域番号 |
15K08845
|
研究機関 | 愛媛大学 |
研究代表者 |
木村 映善 愛媛大学, 医学系研究科, 准教授 (20363244)
|
研究分担者 |
岡本 和也 京都大学, 医学研究科, 准教授 (60565018)
今井 健 東京大学, 大学院医学系研究科(医学部), 准教授 (90401075)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | オントロジー / 機械学習 / 自然言語処理 / ターミノロジー |
研究実績の概要 |
研究者が独自に蓄積した英和用語データベースにUnified Medical Language System (UMLS)のSpecial Lexicon Toolを使って英語の用語をnormalizeした上で,UMLSの英語の用語集と日本語のマッピングを行い,データベースに展開した.有害事象に関する記述として,アレルギーに関する記載に関する用語を収集するために,代表研究者が所属する医療機関の電子カルテから,患者基本プロファイルに記載されているアレルギーに関する文章・用語を抽出し,整理した.電子カルテの自然文章解析の結果から精緻な概念抽出を実現するために,医療用語の意味分散表現の獲得,分散表現のクラスタリングによる同義語抽出,同義語辞書編成の一連のタスクを構成した.基本的検証では,文書から抽出した意味分散表現に加法構成性を確認し,同義語編成による分散表現の抽出の精緻化を確認した.現在進行中であるが,UMLSの概念と電子カルテシステムより抽出した意味分散表現ベクトルを紐付ける.フレーズをこれまでに構築した意味分散表現ベクトルの集合としてみなして,フレーズの類似度による評価を行い,有害事象の記述の検出を試みる準備をしている.また,本研究に関する派生的成果として,電子カルテから抽出した意味分散ベクトルを利用してUMLSにおける医学用語のマッピングタスクを効率化する手法の検討,FHIR Terminology Service上の概念マッピングの実装,応用としてEDC(Electoronic Data Capture)上での概念マッピングの検討を行い,発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
最終年度の目標で,有害事象検出のためにdoc2vecによる有害事象に関する報告フレーズと診療禄の文章間で近似度の比較検証を行う予定であった.電子カルテからデータ抽出しNLPを実施したが,電子カルテ内の記述において,想定以上に表記の揺れがあった.結果として,同一概念に対して複数の意味分散ベクトルベクトルが生成され,フレーズ間のベクトル間近似度の比較に悪影響を与えていた.そのため,構文解析時辞書の改良,表記揺れを吸収するための辞書作成,word2vecエンジンの変更,機械学習のフレームワーク検討に時間を要した.その過程の派生的成果として,電子カルテから抽出した意味分散ベクトルを利用してUMLSにおける医学用語のマッピングタスクを効率化する手法の検討を行い,発表した.
|
今後の研究の推進方策 |
最終年度の目標として有害事象検出アルゴリズムの適用可能性の検証を行う.フレーズをこれまでに構築した意味分散表現ベクトルの集合としてみなして,フレーズの類似度による評価を行う.研究者所属病院のインシデントレポートからアレルギー,有害事象であることを明確に記載されているものを手作業で抽出し,それらのフレーズから有害事象に関するフレーズとしてのベクトルを算出する.電子カルテから診療録のデータを抽出し,フレーズの集合とした上で,ベクトルの算出を行う.先述のインシデントレポートのフレーズとの類似度評価を行うことで,有害事象の記述の可能性があるものを抽出し,評価を行う.さらに複数の概念を持ちうる単語について,フレーズ中の共起関係から,概念を特定するタスクについての評価も試みる予定である.
|
次年度使用額が生じた理由 |
研究活動の進捗遅れに伴い,国際会議参加・論文発表を見送っている.最終年度を繰り越して研究を継続する予定である.平成30年度に2回開催予定のAMIA2018(米国医療情報学会)参加に加え,MEDINFO 2019,MIE2019,論文誌への投稿に充てる.
|