医学文献の意味構造の分析とそれによる知的情報検索,翻訳システムの研究

Research Project

Project/Area Number	06858044
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	情報システム学(含情報図書館学)
Research Institution	The University of Tokyo
Principal Investigator	木内貴弘東京大学, 医学部(医), 助手 (10260481)
Project Period (FY)	1994
Project Status	Completed (Fiscal Year 1994)
Budget Amount *help	¥700,000 (Direct Cost: ¥700,000) Fiscal Year 1994: ¥700,000 (Direct Cost: ¥700,000)
Keywords	症例報告 / 文献検索
Research Abstract	1.方法症例報告の抄録約200件をOCRを用いてテキストファイルとしてコンピュータに入力した。入力されたテキストを機械翻訳プログラムATLASを用いて構文解析を行ない、単語に分解した。正しい解析を行なうために適宜未登録語の辞書登録を行なった。症例報告の内容を要約するためのカテゴリーとして、患者の性別、年齢、主疾病名、初発症状、主要症状、合併症、死亡の有無、検査所見を設定した。これらのカテゴリーのデータを抽出するために、ヒューリスティックな情報として、1)各単語の意味属性、2)同文中の動詞、助動詞と語順、3)全文中の位置を利用した。抽出したカテゴリーのデータについて、検索の実験に利用するために簡単なシソ-ラスを作成した。 2.結果翻訳プログラムによる文の単語への分解の成功率は、十分な辞書登録を行なった結果、全体の98%程度であった。全体ではキ-の92%が正しく抽出可能であり、これらのキ-を利用すると該当しない文献がヒットする確率を数%程度に抑えることが可能であった。初発症状を例に述べると、「で発症した」、「を初発とする」などの共起情報や全文中の一番最初に出現する症状属性を持つ語などの組合せを用いて、初発症状が示されている抄録で94%が正しく抽出可能であった。 3.考察症例報告は他の学問分野にみられない医学分野に特有の文献の形態であり、過去の長い間にわたって膨大な量の記録が蓄積している。従来は、これらの検索のためにフルテキスト検索が行なわれてきたが、本研究では事前にコンピュータ処理を行なって単語の出現のコンテキストや他の構文情報を利用することにより、より精度の高く、スピードの早い検索を行なうことができた。

Report

(1 results)

1994 Annual Research Report

Research Products
(2 results)

All Publications (2 results)

[Publications] 開原成允: "新しい考え方の医学用語シソ-ラスを用いた臨床症例データベースの作成" 医療情報学. 13. 221-228 (1994)
- Related Report
  1994 Annual Research Report
[Publications] Takahiro Kiuchi: "On the Linguistic Representation of Medical Infomation---Natural Language,Controlled Language and Formal Language." MEDINFO 95. (1995)
- Related Report
  1994 Annual Research Report