Project/Area Number |
23K24907
|
Project/Area Number (Other) |
22H03651 (2022-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2022-2023) |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Hitotsubashi University (2023-2024) Tokyo Metropolitan University (2022) |
Principal Investigator |
小町 守 一橋大学, 大学院ソーシャル・データサイエンス研究科, 教授 (60581329)
|
Co-Investigator(Kenkyū-buntansha) |
須藤 克仁 奈良女子大学, 生活環境科学系, 教授 (00396152)
三田 雅人 東京都立大学, システムデザイン研究科, 特任助教 (30966453)
梶原 智之 愛媛大学, 理工学研究科(工学系), 講師 (70824960)
岡 照晃 東京都立大学, システムデザイン研究科, 特任助教 (50782942)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2024: ¥5,720,000 (Direct Cost: ¥4,400,000、Indirect Cost: ¥1,320,000)
Fiscal Year 2023: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2022: ¥7,020,000 (Direct Cost: ¥5,400,000、Indirect Cost: ¥1,620,000)
|
Keywords | 自然言語処理 / 品質推定 / 言語生成 / 評価 / 文法誤り訂正 / 機械翻訳 / テキスト平易化 / 深層学習 |
Outline of Research at the Start |
大規模なテキストコーパスを用いて事前学習された大規模言語モデルを用いると、流暢なテキストを生成することができます。しかし、言語モデルやテキストの自動評価はまだ難しく、解釈性も高くありません。そこで本研究では、評価したい言語現象に対応する最小限の事例をチェックリスト形式で列挙したデータセットを作成し、解釈性の高い評価を行うことを提案します。
|
Outline of Annual Research Achievements |
本研究では、言語生成の評価のためのデータセットを作成し、解釈性の高い自動評価手法を提案することを目的としています。本提案では3年間の研究期間を通じて、文法誤り訂正・機械翻訳・テキスト平易化という3つの言語生成タスクに焦点を当て、それぞれのタスクできめ細かい評価が可能なデータセットの構築と、それを用いた言語生成の自動評価手法の開発に取り組みます。これらの研究によって、それぞれのタスクで継続的にシステムの性能評価を行うことが可能となります。
研究期間の2年目である2023年度は一橋大・都立大グループでは文法誤り訂正に関する網羅性の高いデータセットの構築に継続して取り組みました。2022年度の予備実験の結果を受け、データセットの仕様を決めて言語データの作成の発注を行いました。また、言語モデルの性能を評価するミニマルペアデータセットに関し、サブワード分割の長さによる評価バイアスが存在することを明らかにする研究に取り組み、国際会議 (LREC-COLING 2024) に投稿して採択されました。NAIST グループでは単語単位で翻訳の品質評価が可能なように MQM (Multidimensional Quality Metrics) に基づいて品質評価を付与する研究を継続しました。愛媛大グループではテキスト平易化の品質推定の研究に継続して取り組み、擬似データを用いて品質推定の性能を向上させる手法の提案を行い、国際会議 (LREC-COLING 2024) に投稿して採択されました。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2022年度から継続して3つのタスクで品質推定のデータセット構築や推定手法の提案に取り組んできて、査読つき国際会議での研究成果の採択も進んでいるため、順調に進展しています。
|
Strategy for Future Research Activity |
2024年度は文法誤りの評価データセットの構築については、都立大を中心として研究を継続し、2023年度に引き続いて同じデータ作成者に協力を仰ぎ、データセットの多様性と規模の拡張を行い、CEFR-J の文法項目のカバー率を向上させて国際論文誌への投稿を目指します。 機械翻訳の品質推定の研究については、分担者の2024年度の所属変更に伴い奈良女子大に研究の中心を移し、国際会議への投稿を目指します。実験環境等は奈良先端大の設備が使えるように手続き済みです。 テキスト平易化については、2024年度の前半に国際会議 (LREC-COLING 2024、イタリア開催) で発表を行うとともに、引き続き研究を発展させます。様々な分野でのテキスト平易化のデータセット構築に取り組む計画です。
|