• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実施状況報告書

高品位な知識抽出を実現する三階層オントロジーフレームワークの開発

研究課題

研究課題/領域番号 15K08845
研究機関愛媛大学

研究代表者

木村 映善  愛媛大学, 医学(系)研究科(研究院), 准教授 (20363244)

研究分担者 岡本 和也  京都大学, 医学(系)研究科(研究院), 講師 (60565018)
今井 健  東京大学, 医学(系)研究科(研究院), 講師 (90401075)
研究期間 (年度) 2015-04-01 – 2018-03-31
キーワードオントロジー / Semantic Web / ターミノロジー
研究実績の概要

分散ターミノロジサービスを提供するターミノロジサーバを開発し、米国NIHが開発したUMLSからSNOMED-CTの概念と英語のリードタームを抽出し、有害事象周りの概念に限定して日本語タームを対応付けたデータベースを構築することを試みた。KEGG、JST科学技術用語のライセンスを獲得し、研究者が独自に蓄積した英和用語データベースと統合し、UMLSのSpecial Lexicon Toolを使って英語の用語をnormalizeした上で、UMLSの英語の用語集と日本語のマッピングを行い、Neo4jデータベースに展開した。有害事象に関する記述として、アレルギーに関する記載に関する用語を収集するために、代表研究者が所属する医療機関の電子カルテから、患者基本プロファイルに記載されているアレルギーに関する文章・用語を抽出し、整理した。ターミノロジサービスの実装として、FHIR Terminology Serviceの仕様に基づいて、Ruby on Railsでターミノロジサービスを構築した。アレルギーに関するUMLS、SNOMED-CTからの概念についてマッピングできることを確認したが、一方で、アレルギーの交差反応等や有害事象に関する概念ネットワークがUMLSでは定義できておらず、独自にオントロジーを構築する必要性を確認した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

UMLSの概念ネットワークには概念の上下関係や制約等のみが定義されており、交差反応や有害事象に関する定義がなされていないことが判明した。各アレルゲンの交差反応や原因に関するオントロジーを記述するため、既存のオントロジーやアレルギーのデータベースに関する調査を追加で実施した。その結果、蛋白質レベルでの関係性はデータベースから確認できたが、電子カルテに記載されている粒度(食品名やアレルゲン名称)での因果関係を推察できるようなオントロジーは構築されていないことが判明した。そのため、オントロジーとUMLS概念の関連づけについての作業が増えており、その結果進捗が遅延している。分析する事象を制限することで、これから定義するマッピングの数を減らし、進捗の遅れを挽回する計画を立てている。一方、次年度以降予定のターミノロジーAPIの実装は前倒しで実現した。

今後の研究の推進方策

(1) 有害事象の関係性を抽出する機械学習とオントロジー連携開発

文章中からの有害事象の関係抽出は NLP と SVM 等による機械学習を組み合わせて適用する。NLPの対象となるシナリオを限定的にし、これから構築するオントロジーのマッピング対象の範囲を狭めることで、オントロジーの構築の工数を短縮する。NLPとSVMの実装の経験を有する研究者に助言をいただき、機械学習に関する実装の準備を進める。NLP から単語が切り出された段階では、複数の意味を持つ単語が存在し得るため、前年度に開発したターミノロジサーバのサービス経由で候補となりうる概念のコードに複数展開する。抽出された概念コード群をオントロジーに適用し、短い推論経路、もしくは多くの推論経路数 が得られたものを優先概念として採用する。残された優先概念群から、アレルギーを含めた 疾患・異常概念までの距離をオントロジー上の推論経路より機会学習上の距離として算出し、もっとも蓋然性が高いものとして推定されたものを候補として提示するインタフェースを開発する。解析対象をインシデントレポートの分析結果をもとに、インシデントレポートに関連する電子カルテのテキストに限定することで、検証範囲を限定する。

(2) ターミノロジー API の開発
昨年度に開発したターミノロジサーバに、NLP の語彙辞書を生成させるためのインタフェースを 開発する予定であったが、この開発は省略して、最新のNLP用辞書への更新は手動に切替える。省略した分は先述したオントロジーとUMLS概念の関連づけについての作業が増えた分への対応にまわす。

次年度使用額が生じた理由

ターミノロジーホスティングサーバを手元のPCを利用して構築したため、ターミノロジサーバのホスト費用を計上していない。また、学会・研究会のタイミングにあわせて研究打ち合わせを実施、代表研究者の拠点で打合せを実施したことで、2回分の出張費用を支出する必要がなくなった。さらに、英語論文の校閲にあたっては低価格で委託できる業者を選定したため、校閲費用が数万円に抑制された。このため、次年度使用額が発生したものである。

次年度使用額の使用計画

ホスティングの費用、出張、校正・雑費に充てる。また、共同研究者における繰り越し分については、オントロジーマッピングの作業用にノートPCの購入に充てる。

  • 研究成果

    (5件)

すべて 2015

すべて 雑誌論文 (5件) (うち国際共著 2件、 査読あり 4件、 謝辞記載あり 3件、 オープンアクセス 1件)

  • [雑誌論文] Arden SyntaxとFHIRを利用した臨床判断支援ロジック記述環境の開発の試み2015

    • 著者名/発表者名
      木村 映善,石原 謙
    • 雑誌名

      医療情報学

      巻: 35 ページ: 283-296

    • 査読あり / 謝辞記載あり
  • [雑誌論文] Virtual File System on NoSQL for Processing High Volumes of HL7 Messages2015

    • 著者名/発表者名
      Eizen Kimura,Ken Ishihara
    • 雑誌名

      Studies in Health Technology and Informatics

      巻: 210 ページ: 687-691

    • DOI

      10.3233/978-1-61499-512-8-687

    • 査読あり / オープンアクセス / 国際共著 / 謝辞記載あり
  • [雑誌論文] Internal Domain-Specific Language Based on Arden Syntax and FHIR2015

    • 著者名/発表者名
      Eizen Kimura,Ken Ishihara
    • 雑誌名

      Studies in Health Technology and Informatics

      巻: 216 ページ: 955

    • 査読あり / 国際共著 / 謝辞記載あり
  • [雑誌論文] 医療分野への人工知能適用に関する研究のトピックス2015

    • 著者名/発表者名
      木村 映善
    • 雑誌名

      愛媛医学

      巻: 34 ページ: 197-202

  • [雑誌論文] FHIR Terminology Serviceの実装と評価2015

    • 著者名/発表者名
      木村 映善,石原 謙
    • 雑誌名

      医療情報学

      巻: 35(Suppl.) ページ: 910-911

    • 査読あり

URL: 

公開日: 2017-01-06  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi