研究概要 |
申請者等は,臨床医学分野の知識ベースの構築を目指している.ここでいう知識ベースとは,主要な医療用語とそれらの関係を記述したデータベースであり,主要な疾患に対して,その発生部位,治療や薬剤などの情報を保持するものである.このような知識ベースが利用可能となれば,不適切な治療や投薬に対して警告を発する次世代の電子カルテや,綿密な医療統計データの集計が可能となり,医療ミスの軽減や,正確かつ大規模なデータ分析が実現可能となる.このため,医療情報処理分野では,知識ベースの構築が急がれている.このような背景のもと,本研究では,大量に存在する電子テキストを利用して,知識ベースを自動構築する研究を行った.申請者等は,まず,(1)教師なし学習アプローチを行い,用語の上位/下位関係や用語の分類について,有望な精度で,これらを抽出した.しかし,疾患とその治療法など,より詳細な情報に関しては,十分な精度を得ることはできなかった.次に,(2)医療テキスト(医学辞書200文,電子カルテ300文章)に対して疾患とその治療法など臨床医療知識をアノテートし,そこから機械学習を行った.この結果,日付表現や薬品などいくつかのカテゴリについては90%を超える高い精度で推定が可能となったが,症状や検査値解釈など,語よりも長い句や文の表現される知識については,不十分な精度しか得られなかった.現在は,アノテーション有りのデータと大量に存在するアノテーション無しのデータの両者を組み合わせ,現実的な精度を得るための研究を継続中である.
|