研究実績の概要 |
自然言語処理(AI)を用いたメンタル休職者に対する復職判定の予測モデルへの追加学習 1.研究開始当初の背景。公開されている日本語で学習されたBERTとしては東北大のものが一般的であるが、Wikipediaの文章により事前学習されており、登録されている単語もそれに含まれる32,000語となっている。本研究で用いる面接記録データ等に対して、より適切な、自然言語処理を実施するためには、面接記録データ等に含まれる固有の単語を登録し、追加的な事前学習を、ファインチューニングの前に実施することが望ましい。 2.研究の目的。1の背景を踏まえ、これまで本研究室で収集し一般化した約百件の面接記録に加え、2023年度に協力企業等から受領した面接記録約百件を用いて、東北大により事前学習されたBERTに対して、追加事前学習を実施した。 3.研究の方法。文章を分かち書きする手法として、一般的なSentencePieceを用いた。SentencePieceは単語辞書等の事前の情報無しに、日本語等の区切りが無い言語を分かち書きする方法である。分かち書きすることで得られた固有の単語をBERTに単語として追加した。それらの新たな単語と、既存の単語等の間での関係性を認識させるために、BERTに追加的な事前学習を行った。事前学習は、与えられた面接記録データを用いて、アルゴリズム内で穴埋め問題等を自動作成しそれを解かせることで行う。 4.研究成果。事前の情報無しに文章を分かち書きするSentencePieceにより、面接記録データ固有の単語を、頻出順に抽出したところ、「復職可能」「復職準備」「産業医学的配慮」「通算規定」「休職期間」等の単語が得られた。追加の事前学習を実施した結果、正常にloss(誤差)の減少が見られた。
|