医療記録文に含まれる合成語の語構成解析 -リアルワールドデータの利活用に向けてー
Project/Area Number |
21H03777
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Nara Institute of Science and Technology (2023) Seinan Jo Gakuin University (2021-2022) |
Principal Investigator |
相良 かおる 奈良先端科学技術大学院大学, 先端科学技術研究科, 客員准教授 (00330887)
|
Co-Investigator(Kenkyū-buntansha) |
東条 佳奈 大阪大学, 大学院人文学研究科(人文学専攻、芸術学専攻、日本学専攻), 講師 (20782220)
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 客員教授 (30182489)
黒田 航 杏林大学, 医学部, 准教授 (30425764)
麻 子軒 関西大学, 国際教育センター, 留学生別科特任常勤講師 (30880249)
高崎 智子 西南女学院大学, 保健福祉学部, 教授 (30882865)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥12,220,000 (Direct Cost: ¥9,400,000、Indirect Cost: ¥2,820,000)
Fiscal Year 2023: ¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Fiscal Year 2022: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2021: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
|
Keywords | 医療用語 / 縮約表現 / 合成語 / 語構成要素 / 意味分類 / 縮約医療表現 / 実践医療用語 / 語構成 / 医療縮約表現 / 縮約医療用語 / 臨時一語 |
Outline of Research at the Start |
医療記録には、辞書の見出しにならない病院や診療科特有の、または、医師や看護師等の職種特有の表現を含む臨時一語(例:「白血球減少grade1」「全身浮腫(+)」)が含まれます。 本研究では、これらの臨時一語を研究対象とし、①臨時一語を構成する語構成要素を抽出します。②次いで語構成要素に意味ラベルを付与し、③『臨時一語構成要素試案表(仮称)』を作成し公開します。④更に、一般の人にも理解しやすい表現に言い換える手法についての研究を行います。
|
Outline of Annual Research Achievements |
本研究の目的は、医療記録に含まれる医療縮約表現(以下、「縮約表現」という)を対象に、①医療の観点からみた語構成要素に分割し、②それぞれの語構成要素を意味的に分類し、そして③語構成要素間の文法的な構造を明らかにすることである。 そのために昨年度は、ComeJisyoUtf8-3 の見出し語より品詞が名詞となっているものから 5,711 語の縮約表現候補を選定した。 2022年度は、この5,711語を見直し、重複を除いた5,690語について、①短い単位に語分割し、語末の異なる814要素を抽出した。②次に5,690語を814の語末要素で分類し、同じ語末要素を持つ縮約表現から、無作為に1語を抽出した。③この語末要素の異なる縮約表現814語に「VAC療養中」など、名詞以外の縮約表現8語を加えた822語について、医師により医療の観点からみた縮約表現の確実性のチェックを行い、対象とする縮約表現558語を選定した。④そして対象縮約表現558語の語構成解析を行い、得られた語構成要素1,017要素に52種類の意味ラベルを付与した。 本研究では、選定した合成語(複合語および縮約表現)を医療の観点からみた語構成要素に分割する。すなわち、有意味な語を網羅的に抽出してはおらず、医療言語処理で使えるデータを増やす、すなわち被覆率の向上においての貢献度が高いとは言えない。 そこで、合成語から有意味な部分文字列を網羅的に抽出する手法「並列分散形態論解析」と、網羅的ではないものの簡便な手法「複層化形態論解析」を提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
縮約表現558語について、公開には至らなかったものの、①医療の観点からみた語構成要素に分割し、②それぞれの語構成要素を意味的に分類したこと、および、医療分野の複合語および縮約表現から有意味な部分文字列を網羅的に抽出する手法「並列分散形態論解析」と、網羅的ではないものの簡便な手法「複層化形態論解析」を提案したことから、概ね順調に進展していると判断した。
|
Strategy for Future Research Activity |
最終年度である2023年度の研究計画は以下の通りである。 1.縮約表現558語を構成する語構成要素に付与した意味ラベルを見直し、意味分類の方法を提案する 2.医療の意味的な観点からみた縮約表現の語構成を明らかにする 3.縮約表現の語彙試案表を作成し公開する 4.本研究で得られた知見を公開する 5.医療の観点からみた意味の単位で医療テキストを語分割するツールのプロトタイプを作成する
|
Report
(2 results)
Research Products
(13 results)