2015 Fiscal Year Research-status Report
日本語自然文で記述された診療記録解析のための言語処理アルゴリズムの構築と評価
Project/Area Number |
26330337
|
Research Institution | Kansai Medical University |
Principal Investigator |
渡辺 淳 関西医科大学, 医学部, 准教授 (40148557)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 診療録 / 自然言語処理 / 正規化変換 / パラレルコーパス / テキストマイニング |
Outline of Annual Research Achievements |
昨年度から実施中の「日本語自然文正規化アルゴリズムの構築」およびルールベース日本語正規変換を用いた自然文記述の正規化」で得られたデータを元に、「データマイニングを用いた診療記録の正規化変換を試みることでアルゴリズムの改良を進めた。また、正規化された記述からのキーワード抽出による自然文記載事項の構造化データへの変換作業に着手した。 まず、電子カルテに記載された日本語自然文を正規化変換するためのアルゴリズムを改良し,その変換能力を検証した。具体的には、1か月間のアセスメント記述から抽出・匿名化した自然文を係り受け解析と構文木解析を組み合わせた構文解析に供し,構文が適正で曖昧性がない自然文を自然文の文例集(コーパス)と正規化文コーパスの両者に登録してパラレルコーパス(対比文例集)の種とした。次に,残りの自然文をテキストマイニングに供し,用語・語順の書換えを主体としたルールセットを作成してルールベースの正規化変換を行うことで80%強の自然文を正規化変換した.テキストマイニングの導入によって、ルールベース正規化変換過程で全解探索となった変換方略を最適解変換に戻すことができ、自然文に対応する正規化文の選択が可能となった。このことによって、コーパスの肥大化を抑止するとともに、収載文例の質向上および変換ルールの整理を図ることが可能となった。こうして作成したパラレルコーパスを変換候補として統計的正規化変換を行うことで、自然文の約95%を正規化して正規化文コーパスに収載できた。また、前月の記載から作成した変換ルールセットとパラレルコーパスを用いて当月の記述の90%前後を正規化できた。 なお、これらの研究成果を第27回医療情報学連合大会で発表(2報)したところ、2016年6月に開催される第20回日本医療情報学会春季学術大会の推薦演題となった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1) 自然文の正規化変換(計算機処理が可能で人間にも理解できる記述に変換)の過程にテキストマイニング技法を導入したことで、予測を若干上回る精度での正規化変換が可能となり、当初、目標としていた正規化変換率95%に迫る変換率を得られつつある点で、研究全体の進度は予定をやや上回っていると考えられる。 2) 他方、変換の自動処理化は、判定に人手評価が欠かせないことに加えて、テキストマイニングの導入によってステップとデータフローがやや複雑化したこと、さらに、テキストマイニングとの相性の良かったWindows7上で開発していた解析プログラム群のWindows10への移植が困難であったこと(そのため、一時的に、開発環境をMac&Linuxに戻した。Windows10でbashが使用可となる予定の2016年夏ごろからは、当初の計画どおりとなる予定)などから、一部にわずかではあるが遅れが生じている。 上述の1,2)を総合すると、全体としては、ほぼ、予定どおりに進展していると考えられる。
|
Strategy for Future Research Activity |
1) 現時点での残り約5%を占める正規化困難な自然文のうち約6割をターゲットとし、現状の3ヶ月文に加えて6ヶ月分の自然文記述を追加することで、解析文例数(コーパス収載文例数)の増加に伴うマイニング効果の向上による変換率向上を図る(正規化変換率の目標値を、研究開始当初の95%から97%以上に変更する)。 2) 解析済文例(作成済コーパス)をトレーニングデータに用い、順次、新しい月の記述をテストデータとした正規化変換を行って、コーパスの正規化変換能力を検証する(現時点では90-93%)とともに、改善点の洗い出しを行う。 3) 自然文と正規化文それぞれを材料として、特定の事項についての状態表現、暴露の有無等とそれを受けての処置や予後との関係解析に自然文と正規化文とでどのような違いがどの程度生ずるかを明らかにするとともに、正規化された記述からのキーワード抽出による自然文記載事項の構造化データへの変換に関する実証試験を実施する。 4) 処理の自動化を進めるとともに、生成したコーパスを「教師データ」に用いた機械学習による正規化変換法について、実証試験の実施を可能とするレベルを目標に、おもに基本的事項を中心に検討し、可能な限り、パイロットスタディを開始する予定である。この作業と並行して、27年度のテキストマイニングを用いた研究を発展させ、正規化された記述を用いた診療記録のデータマイニングによる新知見の探索も試みる。
|
Causes of Carryover |
当初、本年度で購入を予定していたデータマイニング(データ処理・結果描画)用のWindows PC1台(約19万円を想定)について、本研究で開発したプログラム群およびデータマイニングアプリケーション(KH-Corder、GNU-R搭載)が、Windows10搭載PCでは所期の作動をしないケースが多発することが予備テストにて判明し、シェルを用いたGNUソフトウエア群をWindows上で稼働させる環境が必要となった。そのため、開発プラットフォームをLinux+WindowsからLinux-Macに一時的に変更して対応し、Windows PCの購入について再考したため。
|
Expenditure Plan for Carryover Budget |
幸い、今夏からWindows10上でシェル (bash)が使用可能となることが判明(3/31に公表)したことから、昨年度、購入を見合わせていたWindows10 搭載PCを今夏に購入予定であり、昨年度生じた次年度使用額はそのために用いる計画である。28年度における本件以外の支出案件については、申請時の調書記載の計画に則して執行の予定である。
|
Research Products
(5 results)