研究課題/領域番号 |
20K12552
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 湘南工科大学 |
研究代表者 |
内山 清子 湘南工科大学, 工学部, 教授 (20458970)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2022年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | 医療用語 / 構造化データ / 語構成要素 / 学習難易度 / 難易度 / 医療用語の属性 / 自動判定 / 語構成要素の構造化 / 医学用語 |
研究開始時の研究の概要 |
本研究では、医学用語に意味情報と学習レベルに応じた難易度を設定することで効率的な医学用語学習を支援することを提案する。医学用語を構成する語構成要素に意味情報と学習難易度を付与し、医学用語の語釈文を、意味の提示と該当語の学習難易度よりも低い用語を使って説明することで検証を行う。この目標を実現するためには医学用語の語構成要素の情報を構造化する。この研究成果により看護師を目指す学習者だけでなく、一般の人や患者が病気を知るために辞書を調べる時に、平易な順に理解を進めていけば詳細な知識を得ることができる。また医師が当たり前に使っている難解な用語をわかりやすく患者に伝える手段としても有効であると考える。
|
研究実績の概要 |
本研究の目的は看護師を目指す学習者(外国人を含む)が、効率的に医学用語を理解するために、医学用語に様々な情報を付与して構造化することと、その構造化データに基づいて造語力、学習頻度、説明力の観点から学習難易度を設定し、その有効性を検証することである。 これまで、看護教科書のデータを収集し、医学用語の抽出、医学用語の語構成要素について分析を行ってきた。分析対象とする医学用語については、既存の一般辞書と医療用語辞書に掲載されている用語を比較することで、出現頻度に基づいて整理を行った。 本年度は医学用語を出現頻度、教科書における出現位置、文の中での役割、複合語内での位置をもとに構造化データを作成することと、その構造化データをもとに学習難易度を設定し、その有効性を検証することを目指した。 看護教科書から抽出した単語の内、頻度が30以上の単語、頻度30以下だが既存辞書や国家試験の索引に出現していた単語 6753 語を使用した。データは 3 種類あり、収集したデータを正規化したもの、格助詞との接続の頻度の部分をtf-idf 化しその他を正規化したものを用いて、機械学習で難易度について分類実験を行った。 難易度については次の4段階を設定した。1:一般的な辞書に含まれる医学用語、2:出現頻度は低いが重要な用語、3:看護の辞書でよく使用される基本的な用語、4:難易度1-3の単語が誤構成要素となり複数結合している用語。分類にはSVMとランダムフォレストで分類器を作成して実験を行った。分類に使った素性は格助詞や語構成要素の出現位置などを使用した。出現頻度が高い用語である難易度1と3については分類精度は良かったが、看護教科書だけでは出現パターンを多く収集することができず、出現頻度が低い難易度2と4についてはあまり良い分類結果にならなかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
難易度の設定および難易度の分類実験を実装できた点である程度順調に進んでいると考える。ただし、問題点も出てきたため、それぞれのやり方を再検討して、改善した手法に取り組んでいきたい。
|
今後の研究の推進方策 |
難易度についてはある程度の知見を得られたため、本年度は医学用語自体の特徴について、より詳細に分析を行っていきたい。その分析に基づいて、看護学生だけでなく患者や一般の人でもわかるような説明文を生成したり、医学用語の属性を検出することなどに取り組んでいきたい。
|