2016 Fiscal Year Annual Research Report
Zero-shot machine translation using multimodal deep encoder-decoder networks
Project/Area Number |
16H05872
|
Research Institution | The University of Tokyo |
Principal Investigator |
中山 英樹 東京大学, 大学院情報理工学系研究科, 講師 (00643305)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 機械翻訳 / 教師なし学習 / マルチモーダル学習 / 深層学習 / 自然言語処理 / 画像認識 |
Outline of Annual Research Achievements |
機械翻訳は人工知能の最も重要なアプリケーションの一つである。その実現の鍵となるのは、異言語の翻訳文が対となった対訳テキストコーパスを用いた機械学習であり、Webビッグデータに代表される大規模データによる精度向上が期待されている。しかしながら、実際には同一内容を複数言語で記述したテキストドキュメントは少ない。一方、単一言語のみに閉じたモノリンガルデータは容易かつ大量に入手可能であるため、これを有効に用いる方法論が確立できれば、従来とは比較にならない規模のビッグデータを機械翻訳へ活用し性能向上を行うことが可能になると期待される。本研究では、画像を異言語テキスト対応付けのハブとして活用することで、一切の管理された対訳テキストコーパスを必要とせず、モノリンガルデータのみからゼロショットで機械翻訳システムを学習する手法を開発する。 本年度は、提案手法の基本形を完成し、その最初の実験評価を行い、論文投稿を完了した。まず、マルチモーダル表現学習手法をソース言語・画像間とターゲット言語・画像間で同時に学習させることにより、3つのモダリティを相互に結び付ける潜在表現へのエンコーダネットワークを構築した。さらに、この潜在表現を入力としデコーダネットワークを訓練することで、任意のモダリティをターゲット言語へ変換することが可能となった。提案手法は、end-to-endに訓練可能であり、任意の深層エンコーダ・デコーダを用いることができる汎用的なモデルとなっている。本手法をIAPRC-TC12、Multi30Kなどのデータセットを用いて評価した結果、ソース言語・ターゲット言語のペアデータが学習時に存在しないゼロリソースの条件下において、実際に翻訳が可能であることが示された。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
手法の開発には質の良いデータセットが必要であるため、当初計画では複数言語と画像の組からなる小規模データセットを構築することを本年度の重要な課題としていた。しかしながら、年度開始時期に他の研究グループから同様のデータセットが提供されたため、これを用いてすぐに手法開発に取り組むことが可能がなり、そのように方針を変更した。 これにより、当初計画ではエンコーダ部分まで開発することを目標としていたが、結果的にはネットワーク全体を完成させ、評価及び論文投稿まで終了し、計画を大きく上回る進展を得た。
|
Strategy for Future Research Activity |
前述の通り、ここまで予定よりも早く基本的な手法の開発と評価が終了し、時間的余裕があるため、来年度は手法の各要素を精査し、より適切なメカニズムを導入し改善することを主な目標としたい。具体的には、エンコーダの学習における適切な損失関数の導入や、デコード時のアテンション機構の設計を重要な課題と予想している。 また、当初計画の最終目標である、Webデータからの学習についても、データクローリング等の準備を進めたい。
|
Research Products
(5 results)