2018 Fiscal Year Annual Research Report
Development of a three-tierd ontology framework to realize high-quality knowledge extraction
Project/Area Number |
15K08845
|
Research Institution | National Institute of Public Health |
Principal Investigator |
木村 映善 国立保健医療科学院, その他部局等, 統括研究官 (20363244)
|
Co-Investigator(Kenkyū-buntansha) |
岡本 和也 京都大学, 医学研究科, 准教授 (60565018)
今井 健 東京大学, 大学院医学系研究科(医学部), 准教授 (90401075)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | オントロジー / 機械学習 / 自然言語処理 / ターミノロジー |
Outline of Annual Research Achievements |
本研究は自然文章で記述された医療情報から有害事象の検出などの有用なアプリケーションを開発するための土台として、医学用語を含む文章の自然言語処理に特化した医学辞書の開発をすることで精度の高い文章の解析の実現を目指した。また、SNOMED-CTやUMLS等の概念の関係性を定義した国際統制用語集とのマッピングを通して、文章中に有害事象そのものに関する記述がなくても、有害事象に関連する用語を検出し、その用語の関係性を辿っていくことで有害事象の可能性を探索できるようにすることを目した。この構想につながる具体的なタスクとして、医学用語の意味分散表現の獲得と国際統制用語集への半自動的マッピングを実現する手法の開発を設定した。膨大な数にのぼる日本の医学用語を国際統制用語集UMLSにマッピングするには多くの人手を要するので、機械学習的手法を用いたマッピング手法を提案した。和英の医学用語辞典を作成し、その辞典に登録した日本語の用語を形態素解析の辞書に登録する。電子カルテシステムの診療録を形態素解析し、その結果をFacebookが開発したfasttextという意味分散表現としての多次元ベクトルを算出するライブラリにかけ、各単語の多次元ベクトルを算出する。ある英語の医学用語の訳語の候補を提示するというタスクにおいて、英和の検索を行い候補としての日本語用語群を抽出し、それらの多次元ベクトルに対して外れ値検出アルゴリズムを適用した。最も重心に近い分散表現を持つ単語を当該概念の「訳語」の候補として、またアウトライヤー処理にて除外されなかった端とを「同義語」あるいは「訳語の次席候補」として提示した。サンプリングした医学用語の翻訳候補を検証した結果、機械的に英和の単語ベースでマッチングするより精度の高いマッピングを期待出来ることが確認された。
|
Research Products
(4 results)