医学文献の意味構造の分析とそれによる知的情報検索,翻訳システムの研究

研究課題

研究課題/領域番号	06858044
研究種目	奨励研究(A)
配分区分	補助金
研究分野	情報システム学(含情報図書館学)
研究機関	東京大学
研究代表者	木内貴弘東京大学, 医学部(医), 助手 (10260481)
研究期間 (年度)	1994
研究課題ステータス	完了 (1994年度)
配分額 *注記	700千円 (直接経費: 700千円) 1994年度: 700千円 (直接経費: 700千円)
キーワード	症例報告 / 文献検索
研究概要	1.方法症例報告の抄録約200件をOCRを用いてテキストファイルとしてコンピュータに入力した。入力されたテキストを機械翻訳プログラムATLASを用いて構文解析を行ない、単語に分解した。正しい解析を行なうために適宜未登録語の辞書登録を行なった。症例報告の内容を要約するためのカテゴリーとして、患者の性別、年齢、主疾病名、初発症状、主要症状、合併症、死亡の有無、検査所見を設定した。これらのカテゴリーのデータを抽出するために、ヒューリスティックな情報として、1)各単語の意味属性、2)同文中の動詞、助動詞と語順、3)全文中の位置を利用した。抽出したカテゴリーのデータについて、検索の実験に利用するために簡単なシソ-ラスを作成した。 2.結果翻訳プログラムによる文の単語への分解の成功率は、十分な辞書登録を行なった結果、全体の98%程度であった。全体ではキ-の92%が正しく抽出可能であり、これらのキ-を利用すると該当しない文献がヒットする確率を数%程度に抑えることが可能であった。初発症状を例に述べると、「で発症した」、「を初発とする」などの共起情報や全文中の一番最初に出現する症状属性を持つ語などの組合せを用いて、初発症状が示されている抄録で94%が正しく抽出可能であった。 3.考察症例報告は他の学問分野にみられない医学分野に特有の文献の形態であり、過去の長い間にわたって膨大な量の記録が蓄積している。従来は、これらの検索のためにフルテキスト検索が行なわれてきたが、本研究では事前にコンピュータ処理を行なって単語の出現のコンテキストや他の構文情報を利用することにより、より精度の高く、スピードの早い検索を行なうことができた。

報告書

(1件)

1994 実績報告書

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] 開原成允: "新しい考え方の医学用語シソ-ラスを用いた臨床症例データベースの作成" 医療情報学. 13. 221-228 (1994)
- 関連する報告書
  1994 実績報告書
[文献書誌] Takahiro Kiuchi: "On the Linguistic Representation of Medical Infomation---Natural Language,Controlled Language and Formal Language." MEDINFO 95. (1995)
- 関連する報告書
  1994 実績報告書