Study on Machine Translation Focusing on the Compositionality of Natural Language
Project/Area Number |
23K21697
|
Project/Area Number (Other) |
21H03500 (2021-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2021-2023) |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Nara Women's University (2024) Nara Institute of Science and Technology (2021-2023) |
Principal Investigator |
須藤 克仁 奈良女子大学, 生活環境科学系, 教授 (00396152)
|
Co-Investigator(Kenkyū-buntansha) |
中村 哲 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (30263429)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2024: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2023: ¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
Fiscal Year 2021: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
|
Keywords | 機械翻訳 / 構成性 / 文脈依存翻訳 / 長文翻訳 / 順送り訳 / 自然言語処理 / 音声翻訳 / 分割統治 / 深層学習 |
Outline of Research at the Start |
長く複雑な入力に対する頑健な機械翻訳の実現を目指し、(1)入力をより短く簡単な部分構造に分割して下訳を作成した後全体の訳を構成する分割統治的アプローチによる機械翻訳方式の実証と、(2)その際文脈情報を考慮することで必ずしも構成的でない自然言語の翻訳における頑健性向上を目指す。
|
Outline of Annual Research Achievements |
2022年度も研究項目1について集中して取り組んだ。 1) 分割統治型翻訳のための多言語事前学習モデルmBARTに基づくアプローチについて基礎検討を行い、節の等位接続の前後で分割して下訳を作成し、下訳を接続詞で連結した混合文を再度機械翻訳の入力とする二段階の手法の検証を行った。本手法は過剰訳の抑制への効果が認められたが、自動評価における目立った向上には至らなかった。 2) 音声翻訳において入力音声を翻訳に適した単位に分割するために、オンライン実行可能な前向きアルゴリズムpTHRによる手法を考案し、人手での発話分割より短い単位での分割が可能な箇所を適応的に発見し音声翻訳の効率向上に寄与できることを示した。 3) 同時翻訳でも活用できる順送り訳を機械翻訳で実現するための学習手法として通常の翻訳モデルから順送り訳を生成可能なPrefix Alignment法を考案し、同時翻訳タスクで順送り制約の強い低遅延時の翻訳精度が向上できることを示した。 4) ボトムアップな構成性の活用検討のため、バイト単位の事前学習モデルである ByT5 を利用した自然言語処理タスクにおいてバイト単位トークンを明示的に結合するネットワーク構造を持つモデルの利用について検討し、処理効率が向上できることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
事前学習モデルを活用することで要素間の明示的対応を不要とする方式へ方針転換を行ったが検討が進んでいること、また音声翻訳での効率向上や順送り訳の強化等、新たな展開も見えてきていることから、当初計画を拡張する形で進展していると考えている。
|
Strategy for Future Research Activity |
分割統治型翻訳については問題のより詳細な分析を進め2023年度中に一定の着地を目指すとともに、文章単位機械翻訳の発展に向けた方式検討に着手する。評価用データ作成については小規模ながらも研究期間中に一定の評価が可能なものの作成を目指す。
|
Report
(2 results)
Research Products
(7 results)