2023 Fiscal Year Research-status Report

医学用語における語構成要素の構造化と学習難易度に関する研究

Research Project

Project/Area Number	20K12552
Research Institution	Shonan Institute of Technology
Principal Investigator	内山清子湘南工科大学, 情報学部, 教授 (20458970)
Project Period (FY)	2020-04-01 – 2025-03-31
Keywords	医療用語 / 意味ラベル / 看護教科書
Outline of Annual Research Achievements	R4年度は難易度を段階に設定して機械学習を用いて分類実験を行ったが、分類に用いた用語について、出現頻度に基づいて抽出したため、偏ったデータとなってしまった。そこで、R5年度は医学用語とその意味ラベルを再度見直すことを実施した。実践医療用語辞書を基準として、看護教科書との一致度を調査した。その結果として、実践医療用語辞書と看護教科書に出現する単語で完全に一致した単語は2111単語、部分一致は27373単語となり、一致しなかった単語は13684単語あることがわかった。一致しなかった単語には意味ラベルが付与されていないため、意味ラベルを付与しなければならないが、人手では時間がかかってしまう。そこでChatGPTで分類できないかを調べることにした。ChatGPTには既存の意味ラベルを指定し、その単語がどの意味ラベルに相当するかを判定してもらうタスクを実施した。サンプルとして各意味ラベル30単語ずつ人手で付与した意味ラベルと比較を行った。その結果、医薬品は86%, 生体物質67%, 医療機器60%, 医療行為53%, 検査23%の分類結果となり、ChatGPTに分類させるには限界があることがわかった。次に、先ほどの実験の中でChatGPTがこちらが指定した意味ラベル以外のラベルで回答する例がいくつかあり、新しい意味ラベルとして適切かどうかを人手で判断した。その結果、ChatGPTでは指定した意味ラベルではなく詳細な分類として、症状の一種であるアレルギーを意味ラベルとして回答していた。間違ってはいないが指定の意味ラベルの枠内での判定が難しいということがわかった。実験の中で、単語の意味や情報を直接問いかけると正しい情報が返ってきていたので、ChatGPTはタスクを限定して利用すればある程度人手の作業を補助することができることがわかった。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 難易度分類の手法の改良のために意味ラベルの再調査を行なったが、その調査に時間がかかってしまったため。
Strategy for Future Research Activity	R6年度は、難易度付与と分類手法の改良に着手する予定である。
Causes of Carryover	コロナのために、海外の学会の中止やオンライン開催などで、現地に出席するための予算を使うことができず、その残りが累積している。R６年度は積極的に国内学会および海外学会に出席して研究成果の発表と研究動向の調査を行っていきたい。