研究課題/領域番号 |
23680013
|
研究機関 | 東京大学 |
研究代表者 |
荒牧 英治 東京大学, 知の構造化センター, 特任講師 (70401073)
|
研究期間 (年度) |
2011-04-01 – 2014-03-31
|
キーワード | 言語処理 / 医療情報 |
研究概要 |
電子カルテの普及とともに,大量に臨床データが蓄積されつつあるが,いまだ,そのデータをフルに利用した有望な研究/医療サービスは存在しない. 本研究では言語処理技術を用い,カルテのテキスト情報中の表記ゆれを吸収する共通基盤をつくった. また,開発した処理基盤を再利用可能なモジュールとして公開準備を進めた. 本年度は,特に(I)同義語と(II)翻字ペアに関して整備を進めた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では扱う現象として次の5つを想定している:(I)同義語,(II)翻字ペア,(III)略語とその展開型,(IV)記号/絵文字化,(V)書き間違い. これらの現象のうち,(I)同義語と(II)翻字ペアについて,表記揺れ吸収モジュールを構築し,Javaのクラスとして実証実験を始めた. 実験の結果,検査名などの表記揺れ吸収にて,80%以上の精度を得た.
|
今後の研究の推進方策 |
(III)略語とその展開型,(IV)記号/絵文字化,(V)書き間違い,など従来表記揺れの範疇とされていなかった現象について,取り組みを開始する予定である.
|