研究概要 |
現在,急速な医療のIT化により,かつてない大量の臨床データが電子化された状態でストックされつつある.このデータを有効に利用することができれば患者の生活習慣と疾患の相関(例えば,喫煙と癌)や,薬品と副作用の相関(タミフルと精神障害)について過去類を見ない大規模な調査を迅速に行うことが可能となり,臨床研究が加速的に進展するとして高い期待が寄せられている.しかし,単にデータを電子化しただけで,上記のような革新が実現できるわけではなく,電子カルテデータを臨床知識としてフルに活用にするためには,自然言語処理を活用することが必須となる.特に,名詞句の羅列として表現されることが多いカルテ文章においては,名詞句の表記のゆれ(同一概念を指す複数の表記群)を吸収することが重要な課題となる.これに加え,多忙な業務の間に記述されるカルテでは,略語表記が頻出し,かつ,書き間違え,打ち間違え,英語表記,ドイツ語表記,記号表記が多用され,より一層の複雑さを呈している.現在まで,これら表記ゆれと表記ゆれと類似した現象は,同一概念を指す複数の表記群という点では同じ問題であるものの体系的に整理されていない.本研究では,(I)同義語,(II)翻字ペア,(III)略語とその展開型,(IV)記号/絵文字化,(V)書き間違い,を同一の枠組みで取り扱えるよう表記ゆれの拡張研究を継続している
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究で扱う表記ゆれ,またはそれに類似した現象については以下の5つがある:(I)同義語,(II)翻字ペア,(III)略語とその展開型,(IV)記号/絵文字化,(V)書き間違い.このうち,(I-III)までは研究を終了し,論文を投稿中である.今後は,(IV)記号/絵文字化など非文法的な表現を扱う予定である.
|