医学用語における語構成要素の構造化と学習難易度に関する研究
Project/Area Number |
20K12552
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Shonan Institute of Technology |
Principal Investigator |
内山 清子 湘南工科大学, 工学部, 教授 (20458970)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
Keywords | 医療用語 / 構造化データ / 語構成要素 / 学習難易度 / 難易度 / 医療用語の属性 / 自動判定 / 語構成要素の構造化 / 医学用語 |
Outline of Research at the Start |
本研究では、医学用語に意味情報と学習レベルに応じた難易度を設定することで効率的な医学用語学習を支援することを提案する。医学用語を構成する語構成要素に意味情報と学習難易度を付与し、医学用語の語釈文を、意味の提示と該当語の学習難易度よりも低い用語を使って説明することで検証を行う。この目標を実現するためには医学用語の語構成要素の情報を構造化する。この研究成果により看護師を目指す学習者だけでなく、一般の人や患者が病気を知るために辞書を調べる時に、平易な順に理解を進めていけば詳細な知識を得ることができる。また医師が当たり前に使っている難解な用語をわかりやすく患者に伝える手段としても有効であると考える。
|
Outline of Annual Research Achievements |
本研究の目的は看護師を目指す学習者(外国人を含む)が、効率的に医学用語を理解するために、医学用語に様々な情報を付与して構造化することと、その構造化データに基づいて造語力、学習頻度、説明力の観点から学習難易度を設定し、その有効性を検証することである。 これまで、看護教科書のデータを収集し、医学用語の抽出、医学用語の語構成要素について分析を行ってきた。分析対象とする医学用語については、既存の一般辞書と医療用語辞書に掲載されている用語を比較することで、出現頻度に基づいて整理を行った。 本年度は医学用語を出現頻度、教科書における出現位置、文の中での役割、複合語内での位置をもとに構造化データを作成することと、その構造化データをもとに学習難易度を設定し、その有効性を検証することを目指した。 看護教科書から抽出した単語の内、頻度が30以上の単語、頻度30以下だが既存辞書や国家試験の索引に出現していた単語 6753 語を使用した。データは 3 種類あり、収集したデータを正規化したもの、格助詞との接続の頻度の部分をtf-idf 化しその他を正規化したものを用いて、機械学習で難易度について分類実験を行った。 難易度については次の4段階を設定した。1:一般的な辞書に含まれる医学用語、2:出現頻度は低いが重要な用語、3:看護の辞書でよく使用される基本的な用語、4:難易度1-3の単語が誤構成要素となり複数結合している用語。分類にはSVMとランダムフォレストで分類器を作成して実験を行った。分類に使った素性は格助詞や語構成要素の出現位置などを使用した。出現頻度が高い用語である難易度1と3については分類精度は良かったが、看護教科書だけでは出現パターンを多く収集することができず、出現頻度が低い難易度2と4についてはあまり良い分類結果にならなかった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
難易度の設定および難易度の分類実験を実装できた点である程度順調に進んでいると考える。ただし、問題点も出てきたため、それぞれのやり方を再検討して、改善した手法に取り組んでいきたい。
|
Strategy for Future Research Activity |
難易度についてはある程度の知見を得られたため、本年度は医学用語自体の特徴について、より詳細に分析を行っていきたい。その分析に基づいて、看護学生だけでなく患者や一般の人でもわかるような説明文を生成したり、医学用語の属性を検出することなどに取り組んでいきたい。
|
Report
(3 results)
Research Products
(2 results)