研究課題/領域番号 |
21H03500
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
須藤 克仁 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00396152)
|
研究分担者 |
中村 哲 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (30263429)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)
2023年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
2021年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
|
キーワード | 機械翻訳 / 文脈依存翻訳 / 長文翻訳 / 順送り訳 / 自然言語処理 / 音声翻訳 / 分割統治 / 構成性 / 深層学習 |
研究開始時の研究の概要 |
本研究では自然言語の構成性に着目し、語句や節、文等の要素単位の部分問題へ分解して効率的に下訳を行った後、さらに文や文章の構造、各要素間の依存関係を考慮して下訳の編集・結合を行い、全体の高精度な翻訳結果を得るアプローチを採る。具体的には、(1)句や節に分解して下訳を行い、要素間関係を考慮して編集・結合を行う文単位の翻訳、(2)節や文に分解して下訳を行い、照応や談話構造を考慮して編集・結合を行う文章単位の翻訳に取り組み、機械翻訳における構成性の問題を探求するとともに、機械翻訳システムおよび長文・文章翻訳の評価用データセットを構築し実践的な評価を行う。
|
研究実績の概要 |
2022年度も研究項目1について集中して取り組んだ。 1) 分割統治型翻訳のための多言語事前学習モデルmBARTに基づくアプローチについて基礎検討を行い、節の等位接続の前後で分割して下訳を作成し、下訳を接続詞で連結した混合文を再度機械翻訳の入力とする二段階の手法の検証を行った。本手法は過剰訳の抑制への効果が認められたが、自動評価における目立った向上には至らなかった。 2) 音声翻訳において入力音声を翻訳に適した単位に分割するために、オンライン実行可能な前向きアルゴリズムpTHRによる手法を考案し、人手での発話分割より短い単位での分割が可能な箇所を適応的に発見し音声翻訳の効率向上に寄与できることを示した。 3) 同時翻訳でも活用できる順送り訳を機械翻訳で実現するための学習手法として通常の翻訳モデルから順送り訳を生成可能なPrefix Alignment法を考案し、同時翻訳タスクで順送り制約の強い低遅延時の翻訳精度が向上できることを示した。 4) ボトムアップな構成性の活用検討のため、バイト単位の事前学習モデルである ByT5 を利用した自然言語処理タスクにおいてバイト単位トークンを明示的に結合するネットワーク構造を持つモデルの利用について検討し、処理効率が向上できることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
事前学習モデルを活用することで要素間の明示的対応を不要とする方式へ方針転換を行ったが検討が進んでいること、また音声翻訳での効率向上や順送り訳の強化等、新たな展開も見えてきていることから、当初計画を拡張する形で進展していると考えている。
|
今後の研究の推進方策 |
分割統治型翻訳については問題のより詳細な分析を進め2023年度中に一定の着地を目指すとともに、文章単位機械翻訳の発展に向けた方式検討に着手する。評価用データ作成については小規模ながらも研究期間中に一定の評価が可能なものの作成を目指す。
|