2022 Fiscal Year Research-status Report

医学用語における語構成要素の構造化と学習難易度に関する研究

Research Project

Project/Area Number	20K12552
Research Institution	Shonan Institute of Technology
Principal Investigator	内山清子湘南工科大学, 工学部, 教授 (20458970)
Project Period (FY)	2020-04-01 – 2024-03-31
Keywords	医療用語 / 構造化データ / 語構成要素 / 学習難易度
Outline of Annual Research Achievements	本研究の目的は看護師を目指す学習者（外国人を含む）が、効率的に医学用語を理解するために、医学用語に様々な情報を付与して構造化することと、その構造化データに基づいて造語力、学習頻度、説明力の観点から学習難易度を設定し、その有効性を検証することである。これまで、看護教科書のデータを収集し、医学用語の抽出、医学用語の語構成要素について分析を行ってきた。分析対象とする医学用語については、既存の一般辞書と医療用語辞書に掲載されている用語を比較することで、出現頻度に基づいて整理を行った。本年度は医学用語を出現頻度、教科書における出現位置、文の中での役割、複合語内での位置をもとに構造化データを作成することと、その構造化データをもとに学習難易度を設定し、その有効性を検証することを目指した。看護教科書から抽出した単語の内、頻度が30以上の単語、頻度30以下だが既存辞書や国家試験の索引に出現していた単語 6753 語を使用した。データは 3 種類あり、収集したデータを正規化したもの、格助詞との接続の頻度の部分をtf-idf 化しその他を正規化したものを用いて、機械学習で難易度について分類実験を行った。難易度については次の4段階を設定した。1:一般的な辞書に含まれる医学用語、2:出現頻度は低いが重要な用語、3:看護の辞書でよく使用される基本的な用語、4:難易度1-3の単語が誤構成要素となり複数結合している用語。分類にはSVMとランダムフォレストで分類器を作成して実験を行った。分類に使った素性は格助詞や語構成要素の出現位置などを使用した。出現頻度が高い用語である難易度1と3については分類精度は良かったが、看護教科書だけでは出現パターンを多く収集することができず、出現頻度が低い難易度2と４についてはあまり良い分類結果にならなかった。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 難易度の設定および難易度の分類実験を実装できた点である程度順調に進んでいると考える。ただし、問題点も出てきたため、それぞれのやり方を再検討して、改善した手法に取り組んでいきたい。
Strategy for Future Research Activity	難易度についてはある程度の知見を得られたため、本年度は医学用語自体の特徴について、より詳細に分析を行っていきたい。その分析に基づいて、看護学生だけでなく患者や一般の人でもわかるような説明文を生成したり、医学用語の属性を検出することなどに取り組んでいきたい。
Causes of Carryover	学会発表で海外での国際会議を当初予定していたが、コロナ感染のために海外での発表、それに伴う旅費の支出がなくなり、今年度に繰り越すこととなった。今年度は国際会議での発表を目指して研究を進める予定である。

Research Products
(1 results)

All Presentation (1 results)

[Presentation] 医療用語の語構成要素に関する調査2022
- Author(s)
  高信寿明 , 川上舜太 , 内山清子
- Organizer
  第36回人工知能学会全国大会