Research Abstract |
本年度は,研究分担者と研究協力者の所属する2病院より,倫理審査申請などの諸手続きを行い,個人が特定できないよう処置を施したテキスト形式の医療情報を提供して頂き,これらとWeb上で公開されている鹿児島大学付属病院で開発された看護度分類および患者状態項目を基に,1.臨床看護の経験者3名と共に実践用語の抽出と選定(7,450語)を行い,2.ComeJisyoV3(登録語数41,592語)を作成・公開し,3.機械学習用コーパス(約30万行)を作成した.なお,病院で蓄積される医療情報には半角文字と全角文字が混在しているため,昨年度公開のComeJisyoV2では,全角文字への変換は行わず,公開したが,半角文字を分かち書きする際に文字化けが起きる.そこで今回公開のComeJisyoV3では,臨床看護の経験者によりComeJisyoV2(登録語彙数34,142語)の用語,品詞,読みの見直しを行い,収集した医療情報の文字コードを調べたところ,シフトJISコード特有領域の文字が含まれていたため,辞書の作成過程において,他の文字コードへの変換は行わず,シフトJISコードで一貫し,システム辞書とは別に運用するユーザ辞書として公開した. 汎用性のある辞書を作成する上で,異なる病院および診療科別での語種構成や品詞構成に相違があるか否かを知ることは重要である.そこで4.2病院の医療情報について計量的な用語調査を行った.その結果,一般の雑誌に含まれる日本文に比べ,医療情報は,体言止めが多く,和語や漢語の占める割合が低く,英字とカタカナ語の割合が高いこと,また2病院間での比較においても,合成語や英数字,記号などの語種構成および品詞の構成に相違がみられることが明らかとなった.これらの分析結果については5.論文にまとめ,「人文科学とコンピュータシンポジウム」で発表している.
|