医学用語における語構成要素の構造化と学習難易度に関する研究

研究課題

研究課題/領域番号	20K12552
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分90020:図書館情報学および人文社会情報学関連
研究機関	湘南工科大学
研究代表者	内山清子湘南工科大学, 情報学部, 教授 (20458970)
研究期間 (年度)	2020-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	2,860千円 (直接経費: 2,200千円、間接経費: 660千円) 2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2022年度: 390千円 (直接経費: 300千円、間接経費: 90千円) 2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
キーワード	医療用語 / 意味ラベル / 看護教科書 / 構造化データ / 語構成要素 / 学習難易度 / 難易度 / 医療用語の属性 / 自動判定 / 語構成要素の構造化 / 医学用語
研究開始時の研究の概要	本研究では、医学用語に意味情報と学習レベルに応じた難易度を設定することで効率的な医学用語学習を支援することを提案する。医学用語を構成する語構成要素に意味情報と学習難易度を付与し、医学用語の語釈文を、意味の提示と該当語の学習難易度よりも低い用語を使って説明することで検証を行う。この目標を実現するためには医学用語の語構成要素の情報を構造化する。この研究成果により看護師を目指す学習者だけでなく、一般の人や患者が病気を知るために辞書を調べる時に、平易な順に理解を進めていけば詳細な知識を得ることができる。また医師が当たり前に使っている難解な用語をわかりやすく患者に伝える手段としても有効であると考える。
研究実績の概要	R4年度は難易度を段階に設定して機械学習を用いて分類実験を行ったが、分類に用いた用語について、出現頻度に基づいて抽出したため、偏ったデータとなってしまった。そこで、R5年度は医学用語とその意味ラベルを再度見直すことを実施した。実践医療用語辞書を基準として、看護教科書との一致度を調査した。その結果として、実践医療用語辞書と看護教科書に出現する単語で完全に一致した単語は2111単語、部分一致は27373単語となり、一致しなかった単語は13684単語あることがわかった。一致しなかった単語には意味ラベルが付与されていないため、意味ラベルを付与しなければならないが、人手では時間がかかってしまう。そこでChatGPTで分類できないかを調べることにした。ChatGPTには既存の意味ラベルを指定し、その単語がどの意味ラベルに相当するかを判定してもらうタスクを実施した。サンプルとして各意味ラベル30単語ずつ人手で付与した意味ラベルと比較を行った。その結果、医薬品は86%, 生体物質67%, 医療機器60%, 医療行為53%, 検査23%の分類結果となり、ChatGPTに分類させるには限界があることがわかった。次に、先ほどの実験の中でChatGPTがこちらが指定した意味ラベル以外のラベルで回答する例がいくつかあり、新しい意味ラベルとして適切かどうかを人手で判断した。その結果、ChatGPTでは指定した意味ラベルではなく詳細な分類として、症状の一種であるアレルギーを意味ラベルとして回答していた。間違ってはいないが指定の意味ラベルの枠内での判定が難しいということがわかった。実験の中で、単語の意味や情報を直接問いかけると正しい情報が返ってきていたので、ChatGPTはタスクを限定して利用すればある程度人手の作業を補助することができることがわかった。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由難易度分類の手法の改良のために意味ラベルの再調査を行なったが、その調査に時間がかかってしまったため。
今後の研究の推進方策	R6年度は、難易度付与と分類手法の改良に着手する予定である。

報告書

(4件)

研究成果
(2件)

すべて学会発表 (2件)

[学会発表] 医療用語の語構成要素に関する調査2022
- 著者名/発表者名
  高信寿明 , 川上舜太 , 内山清子
- 学会等名
  第36回人工知能学会全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 医療用語の語構成要素に関する調査2022
- 著者名/発表者名
  髙信　寿明、川上　舜太、内山　清子
- 学会等名
  人工知能学会
- 関連する報告書
  2021 実施状況報告書