研究課題/領域番号 |
20K12552
|
研究機関 | 湘南工科大学 |
研究代表者 |
内山 清子 湘南工科大学, 工学部, 教授 (20458970)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 医療用語 / 難易度 / 語構成要素 |
研究実績の概要 |
本研究では、語彙・語用・文脈レベルの情報を付与して医学用語を構造化することと、その構造化データに基づいて造語力、学習頻度、説明力の観点から学習難易度を設定し、その有効性を検証することを目的として研究を進めている。令和3年度は、研究の対象となる医療用語の抽出や、語構成要素の分析を中心に進めていった。医療用語は看護師の教科書から抽出したが、名詞が連続した長い用語が多く、通常の形態素解析では抽出できないため、独自の抽出ルールを作成して抽出を行った。抽出した医療用語は27万語であったが、出現頻度が1000以上の単語が325語と全体の0.001%、頻度100以上の単語が3324語で0.01%、頻度10以上が23228語で0.09%であった。よってほとんどの語が頻度10未満であることがわかった。 次に、看護教科書に出現する頻度が高い単語1000語に対して、分析を行った。そのうち250語は一般用語などであったため医療とは関係がない単語と判断し削除し、残りの750語に対して既存辞書である「実践医療用語_語構成要素語彙試案表Ver.1.0」との比較を行った。 最終目標とする難易度付与について記述する。暫定的に難易度設定のレベルの検討を行った。難易度1は一般的な辞書に掲載されている医療に関連した単語(例:血、手術、入院など)とする。難易度2は看護の辞書で良く使われる単語として、出現頻度が高く、教科書や章の前半に出現する単語、多くの医療用語の構成要素となり、語尾として使用されることが多い単語と考えている。難易度3は、出現頻度は低いが、看護師国家試験に出現する単語、多くの医療用語の構成要素となり、主語として用いられている単語であり、難易度4は難易度1-3の単語が構成要素となり複数結合している医療用語を想定している。 以上、医療用語の抽出および既存辞書との比較、難易度の検討を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
初年度があまり進んでいなかったが、2年目にかなり研究を進められることができた。語構成要素の組み合わせパターンの分析や位置に関する解析が着手できていないところが遅れている。
|
今後の研究の推進方策 |
今後は対象とする医学用語の語構成要素情報を整理し、医学用語内の出現位置として語頭、語中、語末、単独に区別し、対象医学用語内における位置情報を統計的に求める。多くの医学用語の語構成要素となり、単独、語末に出現しやすいような用語は造語力が高く学習難易度が低い必須の用語であると考えられる。同様に教科書での出現も初期段階での学習に用いられ、複数単元で出現している用語は学習頻度が高く学習難易度が低いと仮定できる。この仮説に基づいて、まず造語力を測るための指標を検討し、次に学習頻度との相関を調べていく。 また、辞書の語釈文による説明力を分析するためのアノテーション方法についての検討を行っていく。
|
次年度使用額が生じた理由 |
主に国際会議での発表に備えて旅費を計上していたが、コロナの影響でオンライン開催となり、その費用が浮き、次年度使用額が生じた。
|