2023 年度実績報告書

自然言語処理技術を用いた快適なWeb利活用支援に関する研究

研究課題

研究課題/領域番号	19K12241
研究機関	龍谷大学
研究代表者	馬青龍谷大学, 先端理工学部, 教授 (30358882)
研究分担者	南條浩輝滋賀大学, データサイエンス学系, 教授 (50388162)
研究期間 (年度)	2019-04-01 – 2024-03-31
キーワード	日本語学習支援 / プログラミング学習支援 / 文法誤り検出 / 課題文の重要箇所検出 / 事前学習の追加 / 対照学習 / 深層学習 / 系列ラベリング
研究実績の概要	最終年度では研究計画に沿って、以下の各々のテーマで推進した。 (1)前年度に展開してきた「小・中学生のプログラミング教育の接続支援に関する研究」の成果に基づき、BERTを用いてプログラミング課題文からの重要箇所の抽出を行った。複数の文が連なった課題文を対象とし、全体から重要箇所を直接ラベリングする方法と、段階的にラベリングする方法を提案した。段階的ラベリング方法が直接ラベリング方法より性能向上がみられた。特に出現頻度が低いラベルに対して大きな改善が得られることがわかった。 (2)前年度に提案した「BERTによる系列ラベリングを用いた日本語の文法誤り検出」手法に、追加の事前学習として対照学習とMML(Masked Language Model)のマルチタスク学習を提案した。追加の事前学習を行うモデルは追加の事前学習を行わないモデルに比べて性能が向上した。追加の事前学習により、各単語の意味表現及び文の意味表現を維持しつつ、文が誤りを含むか含まないかを分離できるような学習ができた。 (3)前年度に行ったAmazon日本語レビューテキストデータに対するレーティング（評価点・星の数）予測に引き続き、複数の深層学習モデルでのXのポストデータに対するレーティング予測を行った。ポストデータは話し言葉表現に近いことに着目し、事前学習モデルとして日本語話し言葉BERTを導入した。他のモデルとの比較の結果、日本語話し言葉BERTを用いた場合に高いレーティング予測精度が得られた。上記研究成果は言語処理年次大会の査読なし論文3編として発表した。本事業は、快適なWeb利活用のための自然言語処理とそれを用いた支援基盤に関する研究を行うことを目的とし、推進してきた。研究期間全体の研究成果は、査読あり雑誌論文2編、査読あり国際会議論文2編、言語処理年次大会を中心とした査読なし論文14編として発表した。