2012 Fiscal Year Research-status Report
Project/Area Number |
24700132
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | The University of Tokyo |
Principal Investigator |
篠原 恵美子(山田恵美子) 東京大学, 医学部附属病院, 助教 (40582755)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 医療情報学 / 自然言語処理 / 形態論 |
Research Abstract |
病院情報システムの普及とともに診療テキストが電子的に蓄積されつつあり、その利活用のためには記述されている情報がどこの身体部位についてのものであるかを特定することが必要である。身体部位を表す用語集は解剖学の専門家により編纂されているが、診療テキストで使われる身体部位表現は様々なバリエーションがあるため、そのような用語集ではカバーしきれない。本研究ではこのギャップを埋めることを目指し、上述の用語集を基盤としてテキスト中の身体部位表現を抽出し、さらにその表現が指し示す実際の身体部位を特定する技術の研究・開発を行う。 本年度は正規部位表現モデルの構築を目指し、解剖学用語の分析を行った。分析対象は標準部位表現として想定しているもので、日本解剖学会監修の用語集に収載されているものである。この結果、当初モデルとして想定していた、修飾語と標準部位表現の組み合わせの再帰的構造では、その構造に曖昧性がある場合があるため不十分であると分かった。また、「角結膜=角膜|結膜」のような並列・縮退を含む合成語の解析を高精度に行うためには「角」「結」「膜」のような従来形態素として扱われなかった文字列を形態素として定義し、適切な品詞体系を用いることが必要と考えられた。 この他に、実験用のデータとして症例報告のアブストラクトを1000件収集した。アブストラクト中には明らかに複合名詞として出現する部位表現だけでなく、所見や病態表現の一部として出現する場合も多く見られた。病態表現には「狭心症」のように病名として広く用いられる名詞から「脊柱管内(の)ガングリオン」のように助詞の欠落とも捉えられるものまであり、後者は病名辞書のみでカバーするのは難しいことから本研究の対象とするべきであると考えた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度は正規部位表現モデルおよび語彙集の構築を終了する予定であったが、いずれも半分程度の状態である。これは、分析の結果、部位表現が多数の形態素・語から成る合成語であり、当初想定していたよりも複雑な構造を持っていることが判明したためであり、またこれを扱うことのできる既存の知見が言語学、形態論分野においても不十分であるためである。
|
Strategy for Future Research Activity |
1. 部位表現に特化した品詞体系および形態素辞書の構築 既存の形態素の定義では複雑な部位表現の記述に不十分である。「角膜」を「角|膜」、「結膜」を「結|膜」と2形態素とし、「角結膜」を「角|結|膜」と分割し、さらに「角→膜」「結→膜」の係り受け関係を解析できるように「角」と「結」を同一の品詞として定義したい。そのためにはいわゆるクランベリー形態素を扱う必要があると考えている。平成25年度はこのような形態素辞書と適切な品詞体系の構築を目指す。 2. 解剖学用語集の整備 分析に用いた用語集は上位下位関係や全体部分関係を情報として含む非常に豊富なものであるが、人が読むことを想定して作られており、そのままでは本研究で利用できない。例えば「上縁」には「(膵体の)上縁」と「(副腎の)上縁」があり、このことは「上縁」がインデントされており直近のインデントされていない語が「膵体」か「副腎」かを見れば判別できるようになっている。他にも手や足などについての左右の情報も付けられていない。この用語集を人手で整理し、更に症例報告のアブストラクトや医学教科書から不足分を補充して、標準部位表現集として整備する。
|
Expenditure Plans for the Next FY Research Funding |
次年度の研究費は主に解剖学用語集の整備のため、適切な医学教科書の購入、作業者の雇用に充てる。
|