• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

日本語誤り訂正のための自動誤用分類を行う評価手法の開発

研究課題

研究課題/領域番号 23KJ0930
研究種目

特別研究員奨励費

配分区分基金
応募区分国内
審査区分 小区分61030:知能情報学関連
研究機関東京工業大学

研究代表者

古山 翔太  東京工業大学, 情報理工学院, 特別研究員(DC2)

研究期間 (年度) 2023-04-25 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
1,800千円 (直接経費: 1,800千円)
2024年度: 900千円 (直接経費: 900千円)
2023年度: 900千円 (直接経費: 900千円)
キーワード文法誤り訂正 / 自動評価 / 自然言語処理
研究開始時の研究の概要

計算機を利用する語学学習支援技術として、文法誤り訂正がある。文法誤り訂正では、学習者の誤りを含む文を訂正し、正しくした上で出力する。しかし、単に訂正を行なっただけでは、学習者の文中にある誤りがどのような種類の誤りであるか、それが訂正前後でどのように訂正せれたのかということまでは、明示されない。このため、システムの評価や語学学習への応用に課題がある。そこで、本研究では、誤り・訂正の自動分類手法と、これに基づくシステム評価手法の開発を行う。さらに、誤り訂正システムの改善や実応用への拡大を目指す。

研究実績の概要

初年度は、まず、誤用区間抽出のための単語分割手法の検討を行なった。具体的には、特別研究員採用前に作成した日本語文法誤り訂正の自動誤用分類のためのデータセットに対して、誤用区間抽出のための単語分割手法の検討を行なった。日本語学習者コーパスTEC-JLを用いた分析の結果、特に綴りの誤りや文字体系に由来する表記の誤りを含む文の単語分割は困難であることが判明した。この結果に従い、文字単位の分割に基づいたアノテーションを行う必要が生じたため、単語分割器による分割は利用せず、日本語教育分野で用いられる単語の単位に従ってアノテーションを行うガイドラインを作成した。次年度においては、このアノテーションガイドラインを用いて実際にアノテーションを行い、データセットを作成し、誤用種類の自動付与手法の開発に取り組む。
初年度では、さらに、文法誤り訂正において、n-gramを用いたF-scoreを計算することにより評価を行う手法の有効性を検証した。日本語文法誤り訂正では単語単位での評価を行うことは容易ではなく、また、文間での訂正のアライメントを計算することも困難である。そのため、文間のアライメントが不要でありn-gramの計算のみを伴い、かつ、文字単位の分割が適用可能な評価尺度の活用が期待される。この研究は、今後取り組む日本語誤り訂正の評価手法研究により得られる成果をより大きいものにするための足掛かりとなる内容である。本研究は、その成果を言語処理学会第30回年次大会で発表し、若手奨励賞を受賞した。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

当初の予定では、初年度に、誤用区間抽出手法、誤用種類自動付与の開発に取り組む予定であったが、日本語文法誤り訂正の評価における誤用タグの仕様策定が困難であり、当初の予定より時間を要した。

今後の研究の推進方策

日本語文法誤り訂正の評価ための誤用タグ策定を急ぎ、メタ評価データセットなどの作成なども進め、初年度に得られた成果を基礎として、日本後文法誤り訂正の自動評価の基盤を整備する。

報告書

(1件)
  • 2023 実施状況報告書
  • 研究成果

    (1件)

すべて 2023

すべて 学会発表 (1件)

  • [学会発表] 文法誤り訂正の自動評価のための原文・参照文・訂正文間のN-gram F-score2023

    • 著者名/発表者名
      古山 翔太, 永田 亮, 高村 大也, 岡崎 直観
    • 学会等名
      言語処理学会第30回年次大会 (NLP2024)
    • 関連する報告書
      2023 実施状況報告書

URL: 

公開日: 2023-04-26   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi