2023 Fiscal Year Annual Research Report
Construction of an Evaluation Dataset and Quality Estimation for Neural Language Generation
Project/Area Number |
22H03651
|
Allocation Type | Single-year Grants |
Research Institution | Hitotsubashi University |
Principal Investigator |
小町 守 一橋大学, 大学院ソーシャル・データサイエンス研究科, 教授 (60581329)
|
Co-Investigator(Kenkyū-buntansha) |
須藤 克仁 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00396152)
三田 雅人 東京都立大学, システムデザイン研究科, 特任助教 (30966453)
梶原 智之 愛媛大学, 理工学研究科(工学系), 講師 (70824960)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 品質推定 / 言語生成 / 評価 / 文法誤り訂正 / 機械翻訳 / テキスト平易化 |
Outline of Annual Research Achievements |
本研究では、言語生成の評価のためのデータセットを作成し、解釈性の高い自動評価手法を提案することを目的としています。本提案では3年間の研究期間を通じて、文法誤り訂正・機械翻訳・テキスト平易化という3つの言語生成タスクに焦点を当て、それぞれのタスクできめ細かい評価が可能なデータセットの構築と、それを用いた言語生成の自動評価手法の開発に取り組みます。これらの研究によって、それぞれのタスクで継続的にシステムの性能評価を行うことが可能となります。
研究期間の2年目である2023年度は一橋大・都立大グループでは文法誤り訂正に関する網羅性の高いデータセットの構築に継続して取り組みました。2022年度の予備実験の結果を受け、データセットの仕様を決めて言語データの作成の発注を行いました。また、言語モデルの性能を評価するミニマルペアデータセットに関し、サブワード分割の長さによる評価バイアスが存在することを明らかにする研究に取り組み、国際会議 (LREC-COLING 2024) に投稿して採択されました。NAIST グループでは単語単位で翻訳の品質評価が可能なように MQM (Multidimensional Quality Metrics) に基づいて品質評価を付与する研究を継続しました。愛媛大グループではテキスト平易化の品質推定の研究に継続して取り組み、擬似データを用いて品質推定の性能を向上させる手法の提案を行い、国際会議 (LREC-COLING 2024) に投稿して採択されました。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2022年度から継続して3つのタスクで品質推定のデータセット構築や推定手法の提案に取り組んできて、査読つき国際会議での研究成果の採択も進んでいるため、順調に進展しています。
|
Strategy for Future Research Activity |
2024年度は文法誤りの評価データセットの構築については、都立大を中心として研究を継続し、2023年度に引き続いて同じデータ作成者に協力を仰ぎ、データセットの多様性と規模の拡張を行い、CEFR-J の文法項目のカバー率を向上させて国際論文誌への投稿を目指します。 機械翻訳の品質推定の研究については、分担者の2024年度の所属変更に伴い奈良女子大に研究の中心を移し、国際会議への投稿を目指します。実験環境等は奈良先端大の設備が使えるように手続き済みです。 テキスト平易化については、2024年度の前半に国際会議 (LREC-COLING 2024、イタリア開催) で発表を行うとともに、引き続き研究を発展させます。様々な分野でのテキスト平易化のデータセット構築に取り組む計画です。
|