研究概要 |
申請者等は,臨床医学分野の知識ベースの自動構築を目指している.ここでいう知識ベースとは,主要な医療用語間の関係を記述したデータベースであり,主要な疾患に対して,その発生部位,治療や薬剤などの情報を保持するものである.本研究の目的は,このような知識ベースを自動構築するために必須となる日本語コーパスを構築することである. このため,本年度は,これまで海外の医療分野で,どのような言語コーパスが構築されてきたかを調査し,また,実際に利用することで,どの程度の精度が得られ,どのような限界があるのかを明らかにする研究を行った. 1.匿名化コーパス 電子カルテテキストには多くの個人情報が含まれており,研究に利用する際には,これらを取り除く必要がある.匿名化されるべき情報がタグ付けされたコーパスがあれば,これはラベリング問題となる. 我々は,i2b2コーパスを用い,機械学習(条件付確率場)を用いて自動匿名化を行った.その結果,適合率98%,再現率97%という高い精度で匿名化が可能であることが分かった. 2.患者情報推定コーパス 電子カルテに記述されたテキストから,患者の喫煙状態(喫煙者,非喫煙者,不明)を推定するタスクに挑戦した. 情報検索尺度Okapi-BM25とk近傍法を用い,構文解析を用いる/用いないの2つの手法を検証した. その結果,構文解析を用いない場合の精度がもっともよく,86%という精度で患者の喫煙状態を推定できた. 以上のことから,カルテ文章など専門用語を多く含む文章においては,用語の特定においては一般文章より容易であるものの,構文解析など深い処理は,現状では,困難である可能性が示唆された.この知見をいかして,次年度は構文情報を強化するためのコーパスの構築を予定している.
|