| 研究課題/領域番号 |
24K03990
|
| 研究機関 | 金城学院大学 |
研究代表者 |
山元 一晃 金城学院大学, 文学部, 講師 (70799866)
|
| 研究分担者 |
浅川 翔子 慶應義塾大学, 看護医療学部(信濃町), 助教 (50804118)
稲田 朋晃 十文字学園女子大学, 留学生別科, 講師 (20799233)
岩間 裕司 防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 進学課程, 助教 (10983075)
土屋 ともえ 国際医療福祉大学, 成田看護学部, 助教 (00921909)
|
| 研究期間 (年度) |
2024-04-01 – 2028-03-31
|
| キーワード | コーパス / テキスト化 / 形態素解析 / 看護教科書 |
| 研究実績の概要 |
2024年度は、コーパス構築のための教科書の選定作業、電子化・テキスト化処理、タグ付けや整形にあたってのパイロットコーパスの構築を行った。看護の課程において使われており、かつ、網羅性の高い教科書を複数検討し、その中から、最も網羅的かつ広く全国の大学で用いられていると考えられるものを選定した。選定した教科書は、全70巻あり、これについて、電子化・テキスト化の処理を行った。テキスト化処理にあたっては、生成AIサービスのAPIを使用して高精度なOCR処理ができるプログラムを構築し、これを活用した。 上記の教科書から3巻を用いてパイロットコーパスを構築した。パイロットコーパスは、テキスト化処理およびスペースの除去、誤解析の修正や不必要な改行・空白の除去、表紙や裏表紙、奥付、目次などの除去など、必要最低限の処理を行った。これを形態素解析をし、今後のタグ付けや整形の方針を考えた。これについては、2025年3月に開催された「言語処理学会第31回年次大会(NLP2025)」にて発表をした。 さらにこの発表の内容を踏まえ2025年3月に研究分担者を含めた打ち合わせを実施し、今後の方針を決めた。その結果、全70巻の中から、優先的に分析をするテキストを決めた。その結果、初年次教育で重要と考えられる基礎看護学に関わる4冊に焦点をあて、形態素解析・語彙の分析・テストの開発を行うことを決定した。また、整形・タグ付けの方針についても、その方針を定めた。
|
| 現在までの達成度 |
現在までの達成度
3: やや遅れている
理由
初年度に予定していた、コーパス構築について、テキスト化の処理は全て完了した。また、来年度の研究対象とする書籍を決め、順次形態素解析の処理を行っているが、当初想定していた通りには進んでいない。これは、業者に依頼したOCR処理の精度が低く、改めて別の方法により処理を行ったためである。
|
| 今後の研究の推進方策 |
2025年度の初頭には、優先的に分析するテキストの形態素が終わる予定であり、予定通り研究を進められるため、当初の予定通りのペースで研究を進められる予定である。具体的には、語彙の分析、および、語彙テストの作成を行う。
|
| 次年度使用額が生じた理由 |
業者に依頼したOCR処理が想定より低廉な費用で行えたこと、また、OCR処理後のテキスト化も機械化することができ、費用が低く抑えられたこと、想定よりも進捗がやや遅れていることから、当初予定していた作業ができなかったことより、次年度使用額が生じた。来年度は、整形作業のペースを上げるため、適切なアルバイトの雇用に活用する。また、学会発表等、研究成果の公表にも努める。
|