2016 Fiscal Year Annual Research Report
Construction and evaluation of language processing algorithm for analysis on Japanese natural sentences describen in medical records.
Project/Area Number |
26330337
|
Research Institution | Kansai Medical University |
Principal Investigator |
渡辺 淳 関西医科大学, 医学部, 准教授 (40148557)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 電子カルテ / 診療録 / 日本語自然文 / 正規化変換 / アルゴリズム |
Outline of Annual Research Achievements |
診療記録に自然文として記載された非構造化データをを、二次利用のための計算機を用いた処理が可能で、かつ人間が読んで理解可能な「正規化文」に変換するためのアルゴリズムの構築・検証を試みた。材料にはHadoop上に構築した非関係データベースに収載した電子カルテ診療録のアセスメント項から抽出した日本語自然文(約2.7万文)を用いた。平成26年度は2種の構文解析法とルールベース正規変換機構を基軸としたプロトタイプのアルゴリズムを用い、自然文の80%以上を正規化変換可能とした。平成27年度は、自然文と正規化変換文の対比文例集(パラレルコーパス)とテキストマイニングを導入し、さらにアルゴリズムの細部に改良を加えることで自然文の90%以上を正規化変換可能にするとともに、コーパス収載文例の増加に伴って変換効率が向上することを見出した。 上述の成果をもとに、平成28年度は、以下の結果を得た: 1) 本研究で解析対象とした自然文の集合について、正規化変換率の上限が96.6%がであることを目視・用手法を併用して明らかにし、「正規化変換」には材料となる自然文記述の質を主因とする変換効率の限界があること、および改良されたアルゴリズムに、目視・用手法で正規化変換が可能とされた文の99%(自然文の95%強)を正規化変換する能力があることが明らかとなった。 2) 蓄積されたパラレルコーパスシード(種)とすることで、正規化変換アルゴリズムを簡略化可能なこと、および簡略化されたアルゴリズムを機械学習に導入できることが判明した。 3) 材料に自然文と正規化変換文を用いてテキストマイニングによる関連語間の共起分析の結果を比較し自然文の解析では約15%の誤抽出、10%前後の脱落(抽出漏れ)が見られたのに対し、正規化文の解析では誤抽出2%以下、脱落約4%と、正規化変換の有用性を示す結果を得た。
|
Research Products
(3 results)