研究概要 |
本提案の最終目的は,従来とは異なる性質(非文法的・断片化)をもつカルテ文章から「いつ何が起こったのか」という情報を抽出することであり,このための基礎データとして,カルテデータ中のあらゆる事象表現(サ変名詞,動詞)と時間表現のアノテーションを行った.アノテーション指針を決めるのは時間・コストのかかる作業であるが,これには,時間・事象表現のアノテーション枠組みであるTIMEML[Sauri2006]のサブセットを用い,議論の時間を軽減するとともに,既存のリソースとの交換性を高めた.また,疾患名のアノテーションは医学知識(診療情報技師相当)が必要であるため,医師,看護師を含む医療者に一部の作業を依頼し,専門的に妥当なデータを構築した.約2年に渡るデータ構築の結果,本データは精神科,産婦人科を除外したほぼ全診療科をカバーした約680文書となった.これは国内の医療文章のアノテーションとしては最大規模のものである.また,一部のデータは,仮想の患者を想定しているため,倫理的問題に配慮することなく公開可能なデータとなっている.このデータを用いれば,医療文章からの用語抽出をはじめとした多くのアプリケーションが将来的に可能となる.最終年度では,構築したデータの公開を行い,また,実用例として本データを用いた検索システムを構築し,2つの学会(日本内科学会,日本循環器学会)に提供を行った.また,国際会議での発表を含む多数の会議/学会にて発表を行い成果普及に務めた.
|