研究課題/領域番号 |
24590609
|
研究種目 |
基盤研究(C)
|
研究機関 | 神戸大学 |
研究代表者 |
菅野 亜紀 神戸大学, 医学部附属病院, 特命助教 (20457039)
|
研究分担者 |
高岡 裕 神戸大学, 医学部附属病院, 准教授 (20332281)
一瀬 晃洋 神戸大学, 医学部附属病院, 特命准教授 (90362780)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 自動点字翻訳 / 医療文書 / 辞書 |
研究概要 |
本研究では、医療用語を多数含む医療文書の自動点字翻訳時の点訳精度向上法の解明および固有表現(人名や組織名などの固有名詞)の点訳修正支援法の確立、を目指している。 今年度は、(1)我々が作成した自動点字翻訳プログラム「eBraille」を形態素解析ソフト「MeCab」に対応させたバージョンの作成、(2)従来の「ChaSen」を用いたeBrailleと医療文書の点訳結果を比較する予備実験を行った。また、(3)eBrailleで使用する辞書内の複合名詞には、一語として登録されている単語が存在したため、これらの複合名詞を分割して辞書を再構築した。 まず、MeCab版eBrailleの開発では点訳エンジンのKUICのプログラム内の品詞IDをMeCabの出力に合わせた修正が必要だった。次に、ChaSen版eBrailleとMeCab版eBrailleの点訳について、474文で比較解析した。その結果、従来のChaSen版eBrailleでは誤訳となっていた一部の単語の品詞や読みがMeCab版で正しく解析されていた。一方で、MeCabが半角の英数字や記号を誤って解析していたため、これらのついてはeBrailleのプログラム追加で対応した。また辞書の再構成により、複合名詞(例:「神戸大学」)を構成要素である名詞(例:「神戸」および「大学」)に分割可能になり、辞書の仕様に起因する誤訳を防ぎ、正確な自動点字翻訳を可能にした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
従来のChaSen版eBrailleに加えてMeCab版を作成した。両者はいずれも奈良先端大学科学技術大学院大学の松本研究室が開発した形態素解析ソフトで、解析アルゴリズムが異なる。ChaSenと比較して、MeCabの方が解析速度が高速であることが報告されている。MeCab版を作成したことで、2種類の形態素解析ソフトを用いたeBrailleを固有表現の解析に利用することが可能となった。また、eBrailleが使用している辞書の仕様で複合名詞がひとまとまりで収録されているために点字翻訳の誤訳が生じていたが、今回それらを分割したことで辞書に起因する誤訳の減少させた。今後、修正支援対象の固有表現の絞り込みが容易になることが期待される。
|
今後の研究の推進方策 |
点訳修正支援プログラムの作成を目的として、医療文書内の固有表現の出現箇所と頻度の解析を行う。具体的には、本学の一瀬博士と高岡博士(いずれも研究分担者)の協力で、医療文書を収集し、固有表現を解析する。対象とする固有表現は、自然言語処理の専門家による日本固有表現抽出プロジェクト「IREX」で定義している8種類のうち、病院職員が容易に修正可能な「組織名」、「人名」と「固有物名」とする。本研究では、固有物名を、薬剤名、薬品名、疾患名とする。次に、電子化した医療文書からこれらの固有表現の出現箇所と頻度を解析する。
|
次年度の研究費の使用計画 |
次年度は、医療文書の収集と電子化、固有表現の解析等の研究補助のために研究支援者を雇用する。また、研究成果の発表・関連研究の情報収集のための旅費や論文投稿費用、別刷り料等で研究費を使用する予定である。
|