2008 Fiscal Year Annual Research Report
非文法的かつ断片化したテキストからの情報抽出に関する研究
Project/Area Number |
20680006
|
Research Institution | The University of Tokyo |
Principal Investigator |
荒牧 英治 The University of Tokyo, 知の構造化センター, 特任講師 (70401073)
|
Keywords | 画像・言語・音声等認識 |
Research Abstract |
申請者は, 医療分野にて機械学習をベースとした統計的な自然言語処理研究を行っており, 本年度は次の3つの要素技術を研究/開発した. 【技術1 : 医療表現の特定技術】文章中の医療表現(疾患名, 症状, 薬品名etc)を特定するため, 学習用のコーパスを構築し, 機械学習による手法で表現の特定を行った. 用いた手法は, Conditional Random Filedsを複数カスケードした方式であり, 平均85%というて高い精度で示した. 【技術2 : 表現の正規化】「brugada症候群」や「ブルガダ症候群」など同一の概念を指す表現であっても表記ゆれが存在し, 単なる文字列上の処理ではこれらが別々の疾患として処理されてしまう. また, 「翌日」「〜歳から」といった相対的な時間表現をyyddmm形式など一定の形式の統一することもデータの結合のために必要である. そこで, 医療表現の表記のゆれを吸収する技術を開発した. この表記ゆれ技術は, 日本内科学会, および日本循環器学会の症例検索システムにも使用される予定である. 【技術3 : モダリティ/事実性の解析】「再発が認められた」と「再発が疑われた」は前者が事実であり後者は単なる疑いであり事実とは異なる, 緻密にデータを扱うため, これらを区別する技術を研究開発した. また, 上記の3つの要素技術を用いてカルテ文章を年表のように表示するシステム(システム名 : TEXT2TABLE)を構築した.本システムのon the flyデモはweb上で公開されている(http://130.69.114.41/discharge_summaries/new/)
|
Research Products
(4 results)