研究課題/領域番号 |
15K08845
|
研究機関 | 愛媛大学 |
研究代表者 |
木村 映善 愛媛大学, 医学系研究科, 准教授 (20363244)
|
研究分担者 |
岡本 和也 京都大学, 医学研究科, 講師 (60565018)
今井 健 東京大学, 大学院医学系研究科(医学部), 准教授 (90401075)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 機械学習 / ターミノロジー / オントロジー / UMLS |
研究実績の概要 |
UMLSからSNOMED-CTの概念と英語のリードタームを抽出し、有害事象周りの概念に限定して日本語タームを対応付けたデータベースを構築することを試みた。研究者が独自に蓄積した英和用語データベースにUMLSのSpecial Lexicon Toolを使って英語の用語をnormalizeした上で、UMLSの英語の用語集と日本語のマッピングを行い、Neo4jデータベースに展開した。有害事象に関する記述として、アレルギーに関する記載に関する用語を収集するために、代表研究者が所属する医療機関の電子カルテから、患者基本プロファイルに記載されているアレルギーに関する文章・用語を抽出し、整理した。ターミノロジサービスの実装として、FHIR Terminology Serviceの仕様に基づいてターミノロジサービスを構築した。NLPの結果から精緻な概念抽出を実現するために、単語の分散表現の獲得、分散表現のクラスタリングによる同義語抽出、同義語辞書編成の一連のタスクを構成した。基本的検証では、文書から抽出した分散表現に加法構成性を確認し、同義語編成による分散表現の抽出の精緻化を確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
文章中からの有害事象の関係抽出はNLPとSVM等による機械学習を組み合わせて実現することを目指していた。NLPから単語が切り出された段階では複数の意味を持つ単語が存在し得るため、UMLSからSNOMED-CTの概念と英語のリードタームと有害事象周りの概念に限定して日本語タームを対応付けたデータベースを構築し、抽出された単語を当該データベースの概念にマッピングするタスクを想定していた。電子カルテにおけるアレルギーに関する記述状況を調査する過程で、表記揺れの幅が大きく、従来の医学用語辞書のみでは精緻なNLPが困難であることが確認された。そのため、単純なNLPの結果から概念のマッピングを試みることにかえて、以下の一連の処理サイクルを組み上げた。単語の分散表現の獲得による概念の擬似的抽出及びクラスタリングによる同義語の候補抽出、前出の候補群から人力による同義語の選択を経てNLP用の同義語辞書を編纂し、NLP時に同じ語の表記揺れに対して同じ代表表記を与えられるようにし、さらに精緻な単語分散表現の獲得を試みた。文書から獲得した分散表現に加法構成性を確認し、かつ同義語辞書編成による分散表現の精緻化の可能性を確認した。
|
今後の研究の推進方策 |
最終年度の目標として有害事象検出アルゴリズムの適用可能性の検証を行う。フレーズをこれまでに構築した分散表現の集合としてみなして、フレーズの類似度による評価を行う。研究者所属病院のインシデントレポートからアレルギー、有害事象であることを明確に記載されているものを手作業で抽出し、それらのフレーズから有害事象に関するフレーズとしてのベクトルを算出する。電子カルテから診療録のデータを抽出し、フレーズの集合とした上で、ベクトルの算出を行う。先述のインシデントレポートのフレーズとの類似度評価を行うことで、有害事象の記述の可能性があるものを抽出し、評価を行う。 さらに複数の概念を持ちうる単語について、フレーズ中の共起関係から、概念を特定するタスクについての評価も試みる予定である。
|
次年度使用額が生じた理由 |
平成28年の執行計画として、国際学会発表・米国・欧州について2回を計上していたが、実績は1回に留まり、その分が剰余となった。
|
次年度使用額の使用計画 |
平成29年度参加予定のMIE 2017(欧州医療情報学会)、AMIA2017(米国医療情報学会)に加え、採録された場合はMEDINFO2017(国際医療情報学会)の出張に平成28年度からの持ち越し分を充てる予定である。
|