2016 Fiscal Year Annual Research Report

Zero-shot machine translation using multimodal deep encoder-decoder networks

Research Project

Project/Area Number	16H05872
Research Institution	The University of Tokyo
Principal Investigator	中山英樹東京大学, 大学院情報理工学系研究科, 講師 (00643305)
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	機械翻訳 / 教師なし学習 / マルチモーダル学習 / 深層学習 / 自然言語処理 / 画像認識
Outline of Annual Research Achievements	機械翻訳は人工知能の最も重要なアプリケーションの一つである。その実現の鍵となるのは、異言語の翻訳文が対となった対訳テキストコーパスを用いた機械学習であり、Webビッグデータに代表される大規模データによる精度向上が期待されている。しかしながら、実際には同一内容を複数言語で記述したテキストドキュメントは少ない。一方、単一言語のみに閉じたモノリンガルデータは容易かつ大量に入手可能であるため、これを有効に用いる方法論が確立できれば、従来とは比較にならない規模のビッグデータを機械翻訳へ活用し性能向上を行うことが可能になると期待される。本研究では、画像を異言語テキスト対応付けのハブとして活用することで、一切の管理された対訳テキストコーパスを必要とせず、モノリンガルデータのみからゼロショットで機械翻訳システムを学習する手法を開発する。本年度は、提案手法の基本形を完成し、その最初の実験評価を行い、論文投稿を完了した。まず、マルチモーダル表現学習手法をソース言語・画像間とターゲット言語・画像間で同時に学習させることにより、3つのモダリティを相互に結び付ける潜在表現へのエンコーダネットワークを構築した。さらに、この潜在表現を入力としデコーダネットワークを訓練することで、任意のモダリティをターゲット言語へ変換することが可能となった。提案手法は、end-to-endに訓練可能であり、任意の深層エンコーダ・デコーダを用いることができる汎用的なモデルとなっている。本手法をIAPRC-TC12、Multi30Kなどのデータセットを用いて評価した結果、ソース言語・ターゲット言語のペアデータが学習時に存在しないゼロリソースの条件下において、実際に翻訳が可能であることが示された。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 手法の開発には質の良いデータセットが必要であるため、当初計画では複数言語と画像の組からなる小規模データセットを構築することを本年度の重要な課題としていた。しかしながら、年度開始時期に他の研究グループから同様のデータセットが提供されたため、これを用いてすぐに手法開発に取り組むことが可能がなり、そのように方針を変更した。これにより、当初計画ではエンコーダ部分まで開発することを目標としていたが、結果的にはネットワーク全体を完成させ、評価及び論文投稿まで終了し、計画を大きく上回る進展を得た。
Strategy for Future Research Activity	前述の通り、ここまで予定よりも早く基本的な手法の開発と評価が終了し、時間的余裕があるため、来年度は手法の各要素を精査し、より適切なメカニズムを導入し改善することを主な目標としたい。具体的には、エンコーダの学習における適切な損失関数の導入や、デコード時のアテンション機構の設計を重要な課題と予想している。また、当初計画の最終目標である、Webデータからの学習についても、データクローリング等の準備を進めたい。

Research Products
(5 results)

All 2016

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Acknowledgement Compliant: 1 results) Presentation (3 results) (of which Int'l Joint Research: 2 results, Invited: 1 results)

[Journal Article] Efficient two-step middle-level part feature extraction for fine-grained visual categorization2016
- Author(s)
  Hideki Nakayama, Tomoya Tsuda
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: Vol.E99-D Pages: pp.1626-1634
- DOI
  10.1587/transinf.2015EDP7358
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] Annotation Order Matters: Recurrent Image Annotator for Arbitrary Length Image Tagging2016
- Author(s)
  Jiren Jin, Hideki Nakayama
- Journal Title
  
  Proceedings of International Conference on Pattern Recognition
  
  Volume: - Pages: -
- Peer Reviewed
[Presentation] Annotation Order Matters: Recurrent Image Annotator for Arbitrary Length Image Tagging2016
- Author(s)
  Jiren Jin, Hideki Nakayama
- Organizer
  International Conference on Pattern Recognition (ICPR)
- Place of Presentation
  カンクン（メキシコ）
- Year and Date
  2016-12-07 – 2016-12-07
- Int'l Joint Research
[Presentation] Pivot-based multimodality integration for cross-media machine intelligence2016
- Author(s)
  Hideki Nakayama
- Organizer
  CEMS Topical Meeting on Soft Robotics
- Place of Presentation
  理化学研究所（埼玉県和光市）
- Year and Date
  2016-10-07 – 2016-10-07
- Int'l Joint Research / Invited
[Presentation] Recurrent image annotator2016
- Author(s)
  Jiren Jin, Hideki Nakayama
- Organizer
  第19回画像の認識・理解シンポジウム
- Place of Presentation
  アクトシティ浜松（静岡県浜松市）
- Year and Date
  2016-08-02 – 2016-08-02

2016 Fiscal Year Annual Research Report

Zero-shot machine translation using multimodal deep encoder-decoder networks

Principal Investigator

中山 英樹 東京大学, 大学院情報理工学系研究科, 講師 (00643305)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Efficient two-step middle-level part feature extraction for fine-grained visual categorization2016

Author(s)

Journal Title

DOI

[Journal Article] Annotation Order Matters: Recurrent Image Annotator for Arbitrary Length Image Tagging2016

Author(s)

Journal Title

[Presentation] Annotation Order Matters: Recurrent Image Annotator for Arbitrary Length Image Tagging2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Pivot-based multimodality integration for cross-media machine intelligence2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Recurrent image annotator2016

Author(s)

Organizer

Place of Presentation

Year and Date

中山英樹東京大学, 大学院情報理工学系研究科, 講師 (00643305)