2023 Fiscal Year Research-status Report
日本語誤り訂正のための自動誤用分類を行う評価手法の開発
Project/Area Number |
23KJ0930
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
古山 翔太 東京工業大学, 情報理工学院, 特別研究員(DC2)
|
Project Period (FY) |
2023-04-25 – 2025-03-31
|
Keywords | 文法誤り訂正 / 自動評価 / 自然言語処理 |
Outline of Annual Research Achievements |
初年度は、まず、誤用区間抽出のための単語分割手法の検討を行なった。具体的には、特別研究員採用前に作成した日本語文法誤り訂正の自動誤用分類のためのデータセットに対して、誤用区間抽出のための単語分割手法の検討を行なった。日本語学習者コーパスTEC-JLを用いた分析の結果、特に綴りの誤りや文字体系に由来する表記の誤りを含む文の単語分割は困難であることが判明した。この結果に従い、文字単位の分割に基づいたアノテーションを行う必要が生じたため、単語分割器による分割は利用せず、日本語教育分野で用いられる単語の単位に従ってアノテーションを行うガイドラインを作成した。次年度においては、このアノテーションガイドラインを用いて実際にアノテーションを行い、データセットを作成し、誤用種類の自動付与手法の開発に取り組む。 初年度では、さらに、文法誤り訂正において、n-gramを用いたF-scoreを計算することにより評価を行う手法の有効性を検証した。日本語文法誤り訂正では単語単位での評価を行うことは容易ではなく、また、文間での訂正のアライメントを計算することも困難である。そのため、文間のアライメントが不要でありn-gramの計算のみを伴い、かつ、文字単位の分割が適用可能な評価尺度の活用が期待される。この研究は、今後取り組む日本語誤り訂正の評価手法研究により得られる成果をより大きいものにするための足掛かりとなる内容である。本研究は、その成果を言語処理学会第30回年次大会で発表し、若手奨励賞を受賞した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の予定では、初年度に、誤用区間抽出手法、誤用種類自動付与の開発に取り組む予定であったが、日本語文法誤り訂正の評価における誤用タグの仕様策定が困難であり、当初の予定より時間を要した。
|
Strategy for Future Research Activity |
日本語文法誤り訂正の評価ための誤用タグ策定を急ぎ、メタ評価データセットなどの作成なども進め、初年度に得られた成果を基礎として、日本後文法誤り訂正の自動評価の基盤を整備する。
|
Causes of Carryover |
当初、初年度での国際学会参加を計画していたが、論文執筆・投稿が遅れたため、旅費に余りが出てしまった。また、初年度でコーパスのアノテーションを依頼する計画をしていたが、論文執筆・投稿が遅れたため、計画通りに実行できず、人件費・謝金に余りが出てしまった。 次年度使用額は、初年度に執筆、投稿を行った論文での国際学会参加、コーパスアノテーションの依頼のための人件費・謝金として使用する計画である。
|