2021 Fiscal Year Annual Research Report
Study on Machine Translation Focusing on Compositionality of Natural Language
Project/Area Number |
21H03500
|
Allocation Type | Single-year Grants |
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
須藤 克仁 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00396152)
|
Co-Investigator(Kenkyū-buntansha) |
中村 哲 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | 機械翻訳 / 自然言語処理 / 音声翻訳 / 分割統治 |
Outline of Annual Research Achievements |
2021年度は自然言語の構造に基づいて入力を分割する手法についての検討を行い、また入力分割による漸進的な訳出の研究のための対訳コーパスの整備を行った。 (1)構文ラベル予測に基づく入力の分割:漸進的な訳出を行う機械翻訳においては、翻訳先言語の語順に合わせて翻訳元言語の入力を分割することが求められる。本研究では、入力文の途中入力に対して後続要素の構文ラベルを予測するニューラルネットワークモデルを用いて入力を分割して漸進的な訳出を行う手法を考案し、その有効性を示した。 (2)音声を入力とする機械翻訳では、書き言葉のように文の境界が明示的に与えられておらず、通常は音声のポーズ情報等をもとに分割をして翻訳を行うが、自発的な音声発話では文の途中でポーズが入る等柔軟な対応が求められる。本研究では、音声翻訳コーパスにおける発話セグメントの特徴を学習して音声機械翻訳に適した発話分割を行う手法を考案し、その有効性を示した。 (3)上記の研究に関連し、長文に対して適度な分割を行い入力文の語順に近い単調な翻訳(順送りの訳)を機械翻訳で実現するための分析・評価用のコーパスとして、英語・日本語のニュース記事に対する順送りの訳を付した小規模な対訳コーパスを構築した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
統語構造の利用、音声入力への対応、それぞれについて長い入力を適度に分割して訳出する手法についての検討を進め一定の効果を得ることができた。
|
Strategy for Future Research Activity |
2022年度はより複雑な構造の入力文に対して複雑な構造を簡略化して翻訳する手法、対訳コーパスから得られる知識に基づく入力の分割、また入力の分割によって分断される文脈情報を補完し翻訳処理を簡略化しながら文脈を考慮した長文の機械翻訳を行う方式についての検討を行う。
|