• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実施状況報告書

訳選択の根拠の自動推定とその機械翻訳における応用

研究課題

研究課題/領域番号 25730136
研究種目

若手研究(B)

研究機関奈良先端科学技術大学院大学

研究代表者

NEUBIG Graham  奈良先端科学技術大学院大学, 情報科学研究科, 助教 (70633428)

研究期間 (年度) 2013-04-01 – 2016-03-31
キーワード機械翻訳 / 訳選択 / 自然言語処理 / 機械学習 / 評価尺度
研究概要

本年度は、機械翻訳における訳選択の精度向上に向けた調査とシステム構築に取り組み、主に3つの研究成果があった。
1つ目の成果は、実験のベースとなる翻訳システムの構築である。人手により構築されたルールベース機械翻訳(RBMT)の知見を統計的機械翻訳(SMT)に取り入れるために、RBMTと類似した形のSMTシステムが必要となる。これを実現するために、文の構造を利用したSMTシステムを構築し、オープンソースソフトとして公開した。また、システムの実験的評価において、文の構造を英日・日英機械翻訳に直接取り入れることで、既存の翻訳手法を大幅に上回る翻訳精度を実現できた。
2つ目の成果は、SMTに用いる対訳データの小規模化に関する研究である。データを小規模化することにより、本研究の目標であるモデルの小規模化を実現することができるが、単純にデータをランダムに選択すると大幅な精度低下が起こり得る。そこで、大量のデータの中から、頻繁に起こる対訳パターンを特定し、この対訳パターンを確実にカバーするデータを選択する手法を確立した。この対訳データを学習に利用することで、精度の低下を防ぎながらモデルを小規模化できることを、実験的評価により確認した。
3つ目の成果は、訳選択の根拠を自動的に発見するのに欠かせない自動評価尺度の調査である。調査の結果、既存の評価尺度の問題を特定し、訳選択の正確性を正しく評価できる新たな評価尺度の確率の重要性を明らかにした。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

25年度の目標である「人間の訳選択の根拠に関する調査」に関しては、対外発表に至っていないが、データの収集と初期の分析を完了している。この分析で得られた知見に基づいて、訳選択誤りの分類が確立しつつあり、この分類に基づいてさらにデータを作成してもらう予定である。
25~26年度の目標である「訳選択の根拠の自動発見技術の開発」に関しては、基礎的な学習アルゴリズムを開発し、小規模なデータに対して確認済みである。また、ルールベース翻訳の知見を人手で統計翻訳に取り入れた実験も行っている。
26年度以降の目標である「訳選択の根拠を考慮した翻訳システムの構築」に関しては、ベースとなる構文情報を用いた翻訳システムの構築が完了した。訳選択の根拠を自動的に発見する技術の開発をこの枠組みと同時に開発しており、すぐに適応可能である。
このことから、25年度の目標は未完成な部分がある一方、26年度以降の目標は大幅に前倒しに進んでいることから、研究はおおむね順調に進んでいると言える。

今後の研究の推進方策

26年度の予定として主に3つの課題に取り組む予定である。
まず、「人間の訳選択の根拠に関する調査」に関しては、25年度に考案した誤りの分類に基づいて、大規模なデータを作成する予定である。このデータ作成が終了してから、分析を行い、翻訳誤りと見なされる条件について考察を行う。また、誤りと見なされない翻訳の揺れを許しながら、誤りと見なされる翻訳の揺れを許さない翻訳ルール獲得枠組みを考案する。
また、「訳選択の根拠の自動発見技術の開発」に関しては、25年度に開発した学習アルゴリズムを大規模データで利用できるように拡張するとともに、前述の考察の結果を取り入れたルールを学習する枠組みを考案する。特に、RBMTシステムに利用されている情報(例えば、動詞の訳出を選択する時の項のカテゴリー)に着目する。
最後に、「訳選択の根拠を考慮した翻訳システムの構築」に関しては、25年度にベースとなるシステムが完成されたため、訳選択の根拠の自動発見技術が完成すれば、すぐに実環境の翻訳実験も実行可能である。

次年度の研究費の使用計画

平成25年度の目標の1つであった誤り情報付きコーパスの作成が主な原因である。その理由として(1)小規模コーパスに同様のアノテーションを行った際、アノテーション基準の詳細を検討する必要があることが発覚したこと (2)一部平成26年度に予定していたシステムの作成が思ったより早く平成25年度に行うことになったことが挙げられる。
現在、アノテーション基準は完成しており、コーパスの作成を業者に発注しているため、これに当たる作業にかかる費用を繰越分で満てる予定である。

  • 研究成果

    (6件)

すべて 2014 2013 その他

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件、 謝辞記載あり 1件) 学会発表 (3件) (うち招待講演 1件) 備考 (1件)

  • [雑誌論文] On the Elements of an Accurate Tree-to-String Machine Translation System2014

    • 著者名/発表者名
      Graham Neubig, Kevin Duh
    • 雑誌名

      Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (ACL)

      巻: - ページ: 143-149

    • 査読あり / オープンアクセス / 謝辞記載あり
  • [雑誌論文] Travatar: A Forest-to-String Machine Translation Engine based on Tree Transducers2013

    • 著者名/発表者名
      Graham Neubig
    • 雑誌名

      Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL)

      巻: - ページ: 91-96

    • 査読あり
  • [学会発表] 機械翻訳 ~なぜできなかったのか?なぜできるようになりつつあるのか?~2014

    • 著者名/発表者名
      Graham Neubig
    • 学会等名
      音学シンポジウム2014
    • 発表場所
      東京
    • 年月日
      20140525-20150526
    • 招待講演
  • [学会発表] 構文情報を利用した対訳データ選択手法2014

    • 著者名/発表者名
      丹生 伊左夫, Graham Neubig, Sakriani Sakti, 戸田 智基, 中村 哲
    • 学会等名
      言語処理学会第20回年次大会
    • 発表場所
      北海道 札幌
    • 年月日
      20140318-20140320
  • [学会発表] 文レベルの機械翻訳評価尺度に関する調査2013

    • 著者名/発表者名
      Graham Neubig
    • 学会等名
      情報処理学会 第212回自然言語処理研究会
    • 発表場所
      北海道 函館
    • 年月日
      20130718-20130719
  • [備考] Travatar: A Tree-to-String Translation Toolkit

    • URL

      http://www.phontron.com/travatar/

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi