• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Annual Research Report

Zero-shot machine translation using multimodal deep encoder-decoder networks

Research Project

Project/Area Number 16H05872
Research InstitutionThe University of Tokyo

Principal Investigator

中山 英樹  東京大学, 大学院情報理工学系研究科, 講師 (00643305)

Project Period (FY) 2016-04-01 – 2019-03-31
Keywords機械翻訳 / 教師なし学習 / マルチモーダル学習 / 深層学習 / 自然言語処理 / 画像認識
Outline of Annual Research Achievements

機械翻訳は人工知能の最も重要なアプリケーションの一つである。その実現の鍵となるのは、異言語の翻訳文が対となった対訳テキストコーパスを用いた機械学習であり、Webビッグデータに代表される大規模データによる精度向上が期待されている。しかしながら、実際には同一内容を複数言語で記述したテキストドキュメントは少ない。一方、単一言語のみに閉じたモノリンガルデータは容易かつ大量に入手可能であるため、これを有効に用いる方法論が確立できれば、従来とは比較にならない規模のビッグデータを機械翻訳へ活用し性能向上を行うことが可能になると期待される。本研究では、画像を異言語テキスト対応付けのハブとして活用することで、一切の管理された対訳テキストコーパスを必要とせず、モノリンガルデータのみからゼロショットで機械翻訳システムを学習する手法を開発する。
本年度は、提案手法の基本形を完成し、その最初の実験評価を行い、論文投稿を完了した。まず、マルチモーダル表現学習手法をソース言語・画像間とターゲット言語・画像間で同時に学習させることにより、3つのモダリティを相互に結び付ける潜在表現へのエンコーダネットワークを構築した。さらに、この潜在表現を入力としデコーダネットワークを訓練することで、任意のモダリティをターゲット言語へ変換することが可能となった。提案手法は、end-to-endに訓練可能であり、任意の深層エンコーダ・デコーダを用いることができる汎用的なモデルとなっている。本手法をIAPRC-TC12、Multi30Kなどのデータセットを用いて評価した結果、ソース言語・ターゲット言語のペアデータが学習時に存在しないゼロリソースの条件下において、実際に翻訳が可能であることが示された。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

手法の開発には質の良いデータセットが必要であるため、当初計画では複数言語と画像の組からなる小規模データセットを構築することを本年度の重要な課題としていた。しかしながら、年度開始時期に他の研究グループから同様のデータセットが提供されたため、これを用いてすぐに手法開発に取り組むことが可能がなり、そのように方針を変更した。
これにより、当初計画ではエンコーダ部分まで開発することを目標としていたが、結果的にはネットワーク全体を完成させ、評価及び論文投稿まで終了し、計画を大きく上回る進展を得た。

Strategy for Future Research Activity

前述の通り、ここまで予定よりも早く基本的な手法の開発と評価が終了し、時間的余裕があるため、来年度は手法の各要素を精査し、より適切なメカニズムを導入し改善することを主な目標としたい。具体的には、エンコーダの学習における適切な損失関数の導入や、デコード時のアテンション機構の設計を重要な課題と予想している。
また、当初計画の最終目標である、Webデータからの学習についても、データクローリング等の準備を進めたい。

  • Research Products

    (5 results)

All 2016

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Acknowledgement Compliant: 1 results) Presentation (3 results) (of which Int'l Joint Research: 2 results,  Invited: 1 results)

  • [Journal Article] Efficient two-step middle-level part feature extraction for fine-grained visual categorization2016

    • Author(s)
      Hideki Nakayama, Tomoya Tsuda
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: Vol.E99-D Pages: pp.1626-1634

    • DOI

      10.1587/transinf.2015EDP7358

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Annotation Order Matters: Recurrent Image Annotator for Arbitrary Length Image Tagging2016

    • Author(s)
      Jiren Jin, Hideki Nakayama
    • Journal Title

      Proceedings of International Conference on Pattern Recognition

      Volume: - Pages: -

    • Peer Reviewed
  • [Presentation] Annotation Order Matters: Recurrent Image Annotator for Arbitrary Length Image Tagging2016

    • Author(s)
      Jiren Jin, Hideki Nakayama
    • Organizer
      International Conference on Pattern Recognition (ICPR)
    • Place of Presentation
      カンクン(メキシコ)
    • Year and Date
      2016-12-07 – 2016-12-07
    • Int'l Joint Research
  • [Presentation] Pivot-based multimodality integration for cross-media machine intelligence2016

    • Author(s)
      Hideki Nakayama
    • Organizer
      CEMS Topical Meeting on Soft Robotics
    • Place of Presentation
      理化学研究所(埼玉県和光市)
    • Year and Date
      2016-10-07 – 2016-10-07
    • Int'l Joint Research / Invited
  • [Presentation] Recurrent image annotator2016

    • Author(s)
      Jiren Jin, Hideki Nakayama
    • Organizer
      第19回画像の認識・理解シンポジウム
    • Place of Presentation
      アクトシティ浜松(静岡県浜松市)
    • Year and Date
      2016-08-02 – 2016-08-02

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi