研究課題/領域番号 |
19K12241
|
研究機関 | 龍谷大学 |
研究代表者 |
馬 青 龍谷大学, 先端理工学部, 教授 (30358882)
|
研究分担者 |
南條 浩輝 滋賀大学, データサイエンス学系, 教授 (50388162)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | 日本語学習支援 / 文法誤り検出 / 系列ラベリング / レビューテキスト / レーティング / 深層学習 |
研究実績の概要 |
本年度では研究計画に沿って、以下の各々のテーマで推進した。 (1)前年度の用語抽出研究で得られた研究成果に基づき、小・中学生のプログラミング教育の接続支援に関する研究を展開した。本年度では、プログラミング課題を記述する文章(課題テキスト)の可読化を目指し、課題テキストとそれを遂行するためのプログラムコードの対応データの収集を行った。さらに、課題テキストに対し、入力や与えられた条件、出力などに関する記述箇所を特定する情報(タグ)を付与し、タグ付きコーパスの構築を行った。構築したコーパスの有用性を検証するために、用語抽出研究で開発したBERTのQAタスク仕様での用語抽出手法での、タグ付きコーパスを用いたファインチューニングと課題テキストのタグ付けの実験を進めている。 (2)前年度の日本語学習支援に関する研究を引き続き推進した。日本語学習者への作文支援を行うための、作文中の日本語文法の誤り検出に関する研究を行った。文法誤り検出を系列ラベリングタスクとしてとらえ、BERTモデルをベースとし、日本語入力を単語分割せずにも解析できるFlairモデルの導入など、深層学習で解く手法を提案した。語学学習のための、誤りを含む文とその訂正文からなるLang-8コーパスから抽出・加工した72万文のデータを用いた実験で、提案手法の有効性を確認した。 (3)そのほかに、多言語Amazonレビューテキスト中の約20万日本語レビューテキストに対し、BERTとRoBERTaのレーティング予測(星数の予測)に関する比較実験も行った。また、本科研費課題の要素技術としてテキストの段落分割の研究も行った。BERTにauxiliary lossを導入することにより、従来手法より段落分割の精度が向上したことを確認した。 上記研究成果は査読付き学術雑誌論文1編と査読なし論文2編として発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究室の複数メンバーにより、研究計画に沿った研究を円滑に実施することができ、研究をおおむね順調に進展させることができた。研究成果も得られ、積極 的に外部発表を行った。 一方、課題の目標設定が高すぎたところも見られ、その目標を達成するためのサブゴールを複数設け、それに向けて研究を推進している。
|
今後の研究の推進方策 |
研究計画に沿って研究を円滑に実施しており、所期の知見や研究成果も得られたので、今後も研究計画にそって、課題目標が達成できるよう研究をより一層強力に進めて行く予定である。 また、研究環境・研究ツールに関する最新動向や関連研究分野の最新成果を常にサーベイし、そこから得た知見で研究環境・研究手法をタイムリーにアップデートして行く予定である。
|
次年度使用額が生じた理由 |
コロナ禍に加え学内業務で旅費を完全に消化することができなかった。
|