研究課題/領域番号 |
23K24907
|
補助金の研究課題番号 |
22H03651 (2022-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2022-2023) |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 一橋大学 (2023-2024) 東京都立大学 (2022) |
研究代表者 |
小町 守 一橋大学, 大学院ソーシャル・データサイエンス研究科, 教授 (60581329)
|
研究分担者 |
須藤 克仁 奈良女子大学, 生活環境科学系, 教授 (00396152)
三田 雅人 東京都立大学, システムデザイン研究科, 特任助教 (30966453)
梶原 智之 愛媛大学, 理工学研究科(工学系), 講師 (70824960)
岡 照晃 東京都立大学, システムデザイン研究科, 特任助教 (50782942)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2024年度: 5,720千円 (直接経費: 4,400千円、間接経費: 1,320千円)
2023年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2022年度: 7,020千円 (直接経費: 5,400千円、間接経費: 1,620千円)
|
キーワード | 自然言語処理 / 品質推定 / 言語生成 / 評価 / 文法誤り訂正 / 機械翻訳 / テキスト平易化 / 深層学習 |
研究開始時の研究の概要 |
大規模なテキストコーパスを用いて事前学習された大規模言語モデルを用いると、流暢なテキストを生成することができます。しかし、言語モデルやテキストの自動評価はまだ難しく、解釈性も高くありません。そこで本研究では、評価したい言語現象に対応する最小限の事例をチェックリスト形式で列挙したデータセットを作成し、解釈性の高い評価を行うことを提案します。
|
研究実績の概要 |
本研究では、言語生成の評価のためのデータセットを作成し、解釈性の高い自動評価手法を提案することを目的としています。本提案では3年間の研究期間を通じて、文法誤り訂正・機械翻訳・テキスト平易化という3つの言語生成タスクに焦点を当て、それぞれのタスクできめ細かい評価が可能なデータセットの構築と、それを用いた言語生成の自動評価手法の開発に取り組みます。これらの研究によって、それぞれのタスクで継続的にシステムの性能評価を行うことが可能となります。
研究期間の2年目である2023年度は一橋大・都立大グループでは文法誤り訂正に関する網羅性の高いデータセットの構築に継続して取り組みました。2022年度の予備実験の結果を受け、データセットの仕様を決めて言語データの作成の発注を行いました。また、言語モデルの性能を評価するミニマルペアデータセットに関し、サブワード分割の長さによる評価バイアスが存在することを明らかにする研究に取り組み、国際会議 (LREC-COLING 2024) に投稿して採択されました。NAIST グループでは単語単位で翻訳の品質評価が可能なように MQM (Multidimensional Quality Metrics) に基づいて品質評価を付与する研究を継続しました。愛媛大グループではテキスト平易化の品質推定の研究に継続して取り組み、擬似データを用いて品質推定の性能を向上させる手法の提案を行い、国際会議 (LREC-COLING 2024) に投稿して採択されました。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2022年度から継続して3つのタスクで品質推定のデータセット構築や推定手法の提案に取り組んできて、査読つき国際会議での研究成果の採択も進んでいるため、順調に進展しています。
|
今後の研究の推進方策 |
2024年度は文法誤りの評価データセットの構築については、都立大を中心として研究を継続し、2023年度に引き続いて同じデータ作成者に協力を仰ぎ、データセットの多様性と規模の拡張を行い、CEFR-J の文法項目のカバー率を向上させて国際論文誌への投稿を目指します。 機械翻訳の品質推定の研究については、分担者の2024年度の所属変更に伴い奈良女子大に研究の中心を移し、国際会議への投稿を目指します。実験環境等は奈良先端大の設備が使えるように手続き済みです。 テキスト平易化については、2024年度の前半に国際会議 (LREC-COLING 2024、イタリア開催) で発表を行うとともに、引き続き研究を発展させます。様々な分野でのテキスト平易化のデータセット構築に取り組む計画です。
|