1.方法 症例報告の抄録約200件をOCRを用いてテキストファイルとしてコンピュータに入力した。入力されたテキストを機械翻訳プログラムATLASを用いて構文解析を行ない、単語に分解した。正しい解析を行なうために適宜未登録語の辞書登録を行なった。症例報告の内容を要約するためのカテゴリーとして、患者の性別、年齢、主疾病名、初発症状、主要症状、合併症、死亡の有無、検査所見を設定した。これらのカテゴリーのデータを抽出するために、ヒューリスティックな情報として、1)各単語の意味属性、2)同文中の動詞、助動詞と語順、3)全文中の位置を利用した。抽出したカテゴリーのデータについて、検索の実験に利用するために簡単なシソ-ラスを作成した。 2.結果 翻訳プログラムによる文の単語への分解の成功率は、十分な辞書登録を行なった結果、全体の98%程度であった。全体ではキ-の92%が正しく抽出可能であり、これらのキ-を利用すると該当しない文献がヒットする確率を数%程度に抑えることが可能であった。初発症状を例に述べると、「で発症した」、「を初発とする」などの共起情報や全文中の一番最初に出現する症状属性を持つ語などの組合せを用いて、初発症状が示されている抄録で94%が正しく抽出可能であった。 3.考察 症例報告は他の学問分野にみられない医学分野に特有の文献の形態であり、過去の長い間にわたって膨大な量の記録が蓄積している。従来は、これらの検索のためにフルテキスト検索が行なわれてきたが、本研究では事前にコンピュータ処理を行なって単語の出現のコンテキストや他の構文情報を利用することにより、より精度の高く、スピードの早い検索を行なうことができた。
|