2014 Fiscal Year Research-status Report
日本語自然文で記述された診療記録解析のための言語処理アルゴリズムの構築と評価
Project/Area Number |
26330337
|
Research Institution | Kansai Medical University |
Principal Investigator |
渡辺 淳 関西医科大学, 医学部, 准教授 (40148557)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 日本語自然文 / 電子カルテ / 構文解析 / 日本語正規変換 / パラレルコーパス / テキストマイニング |
Outline of Annual Research Achievements |
1) 開発済みの「係り受け解析と構文木解析を組み合わせた構文解析法」および機械翻訳技法を援用したルールベース日本語正規変換法と統計的日本語正規変換法とを組み合わせ、診療記録に自然文として記載された非構造化データを、計算機処理が可能な正規構文に変換し、二次利用が容易なデータのまとまりとして取り扱えるようにするためのアルゴリズムの構築と検証を試みた。その結果、前段に構文解析、後段にパラレルコーパスを用いた統計的日本語正規変換法を組み合わせる手法が、非構造化データの正規構文変換を介した二次利用が容易なデータのまとまりへの変換のための第一選択となり得る可能性が強く示唆された。 2) 非構造化データを計算機処理が可能な正規構文に変換するためのパラレルコーパスの作成に着手した。この過程で得られた多対多の関係を有するコーパスのテキストマイニングを用いた解析によって、文の正規化・標準化が効率的変換に有用である可能性が示されたことから、テキストマイニング技法を援用した正規化文のブラッシュアップを行って、その効果検証を試みつつある。また、語を個々の要素として解析対象とするよりも核となる単語(キーワード)とそれに関係する束縛演算子を1組として解析する方が精度の高い正規化変換が行えることが判明したことから、コーパス作成過程にテキストマイニング技法と機械学習法を取り入れたフレーズ・単語群を要素とする文解析の有用性を検証しつつある。 3) 解析対象データの抽出手法を、従来の電子カルテ記述のコピー・ペーストから、データウエアハウスを用いた一括抽出法に変更するとともに、正規記述変換の自動化・半自働化に向けたデータ解析基盤のプロトタイプを構成し、解析のためのプログラム群の開発・整備に着手した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成26年度に予定していた研究項目の進捗状況は以下のとおりである: 1. 「診療記録の自由記述文を計算機処理可能な正規化日本語構文に変換するためのアルゴリズム構築」の根幹部分については、前段に構文解析、後段にパラレルコーパスを用いた統計的日本語正規変換法を組み合わせたアルゴリズムの構築によって、ほぼ、所期の成果が得られることを示し、成果の一部を第34回医療情報学連合大会で公表した。 2. このアルゴリズムに則してハッシュ(key-value型連想配列)を用いたデータ格納・検索・比較を行う自働日本語記述正規化変換器のプロトタイプを開発し、パラレルコーパスの作成とコーパスを用いた正規化変換精度の検討を行い、自然文:正規文コーパスが多対多の関係の場合、正規変換効率・精度は高くなるものの、処理に時間を要するケースが増加することが判明した。そこで、次年度に予定していたテキストマイニングおよび正規化記述からのキーワード・基本構文型抽出処理の一部を前倒しで導入し、自然文対正規文コーパスをできるだけ多対1に近づけることで変換処理の高速化を試みた。その結果、多対少数(自然文例3~20程度に対して正規化文例2~4程度)のパラレルコーパスを作成すればハッシュ化データの利点を活かした高速変換が可能となることが判明し、変換精度についての検証を重ねつつある。現時点では、特殊なケースを除いて、当初予測した変換効率・変換速度に近い結果が得られている。 他方、テキストマイニング等を一部先行させたことから、データ解析基盤のプロトタイプ構成および自作プログラム群作成への着手が、当初の予定 (2014年秋)よりやや遅れて2015年 1~3月にずれ込んだ。本年度に予定した事項の一部に若干の遅れはあるが、次年度予定事項の一部が前倒し実施となったことから、総合して、ほぼ予定どおり進行していると考えている。
|
Strategy for Future Research Activity |
26年度に構築したアルゴリズムの根幹部分については、今後も大きな変更は生じないと推測される。パラレルコーパス収載文例の充実による正規変換精度の向上および処理の高速化に向けては、処理過程にテキストマイニングを挟むことで対応可能なことが示唆されつつある。ただ、27年度以降に予定していたマイニング処理を前倒ししたため、検証を必要とする事項(特に、マイニング手法の違いによる結果の差異に関する検討など、一部、基礎的な部分を含む)についての検証が残されている。そこで、27年度前半には、まず、この部分に重点を置いて実施する。また、27年度では、当初の予定に加えてマイニングの効果を可視化し、結果を関連分野・他分野の研究者の利用ができるように、もわかりやすい形で提示することを計画している。 なお、26年度に予定していた「係り受け解析と構文木解析を組み合わせた構文解析法」に関する論文の作成(学会推薦を得ていた)については、取り上げた事例が少数のカルテ記載者のレトリック特性の影響を受けやすくなっている可能性が危惧されたため、26年度に再解析を実施した。その結果、レトリック特性の影響は小さく、当初の結果に誤りがないことが確認できたため、実験計画には含まれていないが、可能であれば追加実験の結果を含めた構文解析に関する論文を改めて作成したいと考えている。 平成27年度は、上述の事項に加え、当初の計画にしたがってパラレルコーパスの文例を拡充させるとともに、正規化記述からのデータマイニングによる知見探索および自然文記述の構造化データでの変換実験に着手する計画である。
|
Causes of Carryover |
おもに解析のためのHadoop環境構築用マイクロサーバ3台を購入予定のところ、テキストマイニング等を先行させたことでデータ解析基盤のプロトタイプ構成の着手が遅れたこと、 当初はHadoop環境を前提とした解析基盤にとらわれずに、並行してOpen sourceの機械学習アプリ(Jubatus)や既成のオープンソーステキストマイニングツール(KH Corder)等も導入したこと、および多対少数の対比コーパスへの移行開始によってスタート時のサーバ必要数が少なくなったことなどから、26年度のマイクロサーバ購入台数を2台にできたことが、次年度使用額が生じた主要な理由である(現時点では3台を必要とする状況はわずかであり、既存機器にSSDを増設して対応している)。
|
Expenditure Plan for Carryover Budget |
次年度使用額37,757円は、テキストマイニング結果を図で提示するために必要なデータ解析用パソコンの部品代(RAM増設費用等)として用いる予定である。また、26年度に2台導入にとどまったマイクロサーバについては、当初の計画で、分散処理用マイクロサーバの増設を27年度中に2台、28年度に1台予定しており、データ量の増加を考慮しても、コーパス構造の改善による負荷低減効果によって27年度は4台、28年度は5台(いずれも、内1台は管理・制御用)のクラスタで処理可能と推定される。
|
Research Products
(2 results)