2015 Fiscal Year Research-status Report
高品位な知識抽出を実現する三階層オントロジーフレームワークの開発
Project/Area Number |
15K08845
|
Research Institution | Ehime University |
Principal Investigator |
木村 映善 愛媛大学, 医学(系)研究科(研究院), 准教授 (20363244)
|
Co-Investigator(Kenkyū-buntansha) |
岡本 和也 京都大学, 医学(系)研究科(研究院), 講師 (60565018)
今井 健 東京大学, 医学(系)研究科(研究院), 講師 (90401075)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | オントロジー / Semantic Web / ターミノロジー |
Outline of Annual Research Achievements |
分散ターミノロジサービスを提供するターミノロジサーバを開発し、米国NIHが開発したUMLSからSNOMED-CTの概念と英語のリードタームを抽出し、有害事象周りの概念に限定して日本語タームを対応付けたデータベースを構築することを試みた。KEGG、JST科学技術用語のライセンスを獲得し、研究者が独自に蓄積した英和用語データベースと統合し、UMLSのSpecial Lexicon Toolを使って英語の用語をnormalizeした上で、UMLSの英語の用語集と日本語のマッピングを行い、Neo4jデータベースに展開した。有害事象に関する記述として、アレルギーに関する記載に関する用語を収集するために、代表研究者が所属する医療機関の電子カルテから、患者基本プロファイルに記載されているアレルギーに関する文章・用語を抽出し、整理した。ターミノロジサービスの実装として、FHIR Terminology Serviceの仕様に基づいて、Ruby on Railsでターミノロジサービスを構築した。アレルギーに関するUMLS、SNOMED-CTからの概念についてマッピングできることを確認したが、一方で、アレルギーの交差反応等や有害事象に関する概念ネットワークがUMLSでは定義できておらず、独自にオントロジーを構築する必要性を確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
UMLSの概念ネットワークには概念の上下関係や制約等のみが定義されており、交差反応や有害事象に関する定義がなされていないことが判明した。各アレルゲンの交差反応や原因に関するオントロジーを記述するため、既存のオントロジーやアレルギーのデータベースに関する調査を追加で実施した。その結果、蛋白質レベルでの関係性はデータベースから確認できたが、電子カルテに記載されている粒度(食品名やアレルゲン名称)での因果関係を推察できるようなオントロジーは構築されていないことが判明した。そのため、オントロジーとUMLS概念の関連づけについての作業が増えており、その結果進捗が遅延している。分析する事象を制限することで、これから定義するマッピングの数を減らし、進捗の遅れを挽回する計画を立てている。一方、次年度以降予定のターミノロジーAPIの実装は前倒しで実現した。
|
Strategy for Future Research Activity |
(1) 有害事象の関係性を抽出する機械学習とオントロジー連携開発
文章中からの有害事象の関係抽出は NLP と SVM 等による機械学習を組み合わせて適用する。NLPの対象となるシナリオを限定的にし、これから構築するオントロジーのマッピング対象の範囲を狭めることで、オントロジーの構築の工数を短縮する。NLPとSVMの実装の経験を有する研究者に助言をいただき、機械学習に関する実装の準備を進める。NLP から単語が切り出された段階では、複数の意味を持つ単語が存在し得るため、前年度に開発したターミノロジサーバのサービス経由で候補となりうる概念のコードに複数展開する。抽出された概念コード群をオントロジーに適用し、短い推論経路、もしくは多くの推論経路数 が得られたものを優先概念として採用する。残された優先概念群から、アレルギーを含めた 疾患・異常概念までの距離をオントロジー上の推論経路より機会学習上の距離として算出し、もっとも蓋然性が高いものとして推定されたものを候補として提示するインタフェースを開発する。解析対象をインシデントレポートの分析結果をもとに、インシデントレポートに関連する電子カルテのテキストに限定することで、検証範囲を限定する。
(2) ターミノロジー API の開発 昨年度に開発したターミノロジサーバに、NLP の語彙辞書を生成させるためのインタフェースを 開発する予定であったが、この開発は省略して、最新のNLP用辞書への更新は手動に切替える。省略した分は先述したオントロジーとUMLS概念の関連づけについての作業が増えた分への対応にまわす。
|
Causes of Carryover |
ターミノロジーホスティングサーバを手元のPCを利用して構築したため、ターミノロジサーバのホスト費用を計上していない。また、学会・研究会のタイミングにあわせて研究打ち合わせを実施、代表研究者の拠点で打合せを実施したことで、2回分の出張費用を支出する必要がなくなった。さらに、英語論文の校閲にあたっては低価格で委託できる業者を選定したため、校閲費用が数万円に抑制された。このため、次年度使用額が発生したものである。
|
Expenditure Plan for Carryover Budget |
ホスティングの費用、出張、校正・雑費に充てる。また、共同研究者における繰り越し分については、オントロジーマッピングの作業用にノートPCの購入に充てる。
|