近年,電子カルテやインターネットに接続可能な健康器具により大量の医療データが利用可能になりつつあり,これらを活用することで,過去例を見ない大規模な統計的研究や,大規模データに基づいた医療支援システムを実現可能であるとして大きな期待がよせられている. しかし,現状では,電子化された言語データを処理する枠組みがないため,データは活用されるどころか,情報過多を起こし現場の医療者の負担をさらに増しているケースさえある.以上の背景のもと,本プロジェクトでは, カルテ文章に記述される疾患表現の表記ゆれを吸収する技術を開発する.また,表記ゆれと類似した現象として(I)同義語,(II)翻字ペア,(III)略語とその展開型,(IV)記号/絵文字化,(V)書き間違い,なども扱えるモデルとする.
|