• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実績報告書

日中機械翻訳の実用化を目指した対訳資源の段階的自動構築

研究課題

研究課題/領域番号 14J02353
研究機関京都大学

研究代表者

チョ シンキ  京都大学, 情報学研究科, 特別研究員(DC2)

研究期間 (年度) 2014-04-25 – 2016-03-31
キーワード機械翻訳 / コンパラブルコーパス / 対訳データ
研究実績の概要

統計的機械翻訳(SMT)では対訳コーパスから翻訳知識を獲得するため、翻訳の精度は対訳コーパスの量と質に依存する。しかしながら、大規模かつ高品質な対訳コーパスが存在する言語対やドメインは少ない。この問題を解決するために、コンパラブルコーパスを利用することが考えられる。コンパラブルコーパスは各言語独立に、特定の話題について記述された文書対である。コンパラブルコーパスには単語、単語列(フラグメント)、文の三種類の対訳データが数多く存在する。この一年間、これらの対訳データを統合的に抽出するフレームワークを研究し、翻訳の精度を向上させた。得られた主要な成果は以下の通りである。
1. 対訳単語対抽出において、トピックと文脈知識を用いた反復的抽出手法を提案した。提案手法は種となる事前知識(対訳辞書など)が不要で、抽出の性能が反復的に改善できる。日英、中英、日中のWikipediaデータでの実験により、提案手法の有効性を示した。また、抽出した対訳単語対は後の対訳フラグメントおよび対訳文抽出に使用した。
2. Wikipediaデータから日中対訳コーパスを構築するための堅牢な対訳文抽出システムを提案した。提案システムは主に対訳文候補のフィルタおよび対訳文であるかどうかを識別する分類器から構成されている。実験では、対訳文抽出の性能と翻訳精度向上の2つの観点から、提案システムの有効性を示した。
3. 単語アライメントモデルにより抽出された対訳フラグメント候補を、すでに抽出されている対訳単語対を用いてフィルタリングすることにより、高精度に対訳フラグメントを抽出するシステムを提案した。日中コンパラブルコーパスで行われた実験の結果、提案システムが対訳フラグメントを正確に抽出し、これを利用することで翻訳の精度も向上することを確認した。

現在までの達成度 (段落)

翌年度、交付申請を辞退するため、記入しない。

今後の研究の推進方策

翌年度、交付申請を辞退するため、記入しない。

  • 研究成果

    (7件)

すべて 2015 2014 その他

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件、 謝辞記載あり 2件) 学会発表 (3件) 図書 (1件) 備考 (1件)

  • [雑誌論文] Integrated Parallel Sentence and Fragment Extraction from Comparable Corpora: A Case Study on Chinese-Japanese Wikipedia2015

    • 著者名/発表者名
      Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi
    • 雑誌名

      ACM Transactions on Asian Language Information Processing (TALIP)

      巻: 印刷中 ページ: 印刷中

    • 査読あり / オープンアクセス / 謝辞記載あり
  • [雑誌論文] Parallel Sentence Extraction Based on Unsupervised Bilingual Lexicon Extraction from Comparable Corpora2015

    • 著者名/発表者名
      Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi
    • 雑誌名

      自然言語処理

      巻: 印刷中 ページ: 印刷中

    • 査読あり / オープンアクセス / 謝辞記載あり
  • [学会発表] Large-scale Japanese-Chinese Scientific Dictionary Construction via Pivot-based Statistical Machine Translation2015

    • 著者名/発表者名
      Chenhui Chu, Raj Dabre, Toshiaki Nakazawa and Sadao Kurohashi
    • 学会等名
      In Proceedings of the 21th Annual Meeting of the Association for Natural Language Processing (NLP2015)
    • 発表場所
      京都大学 京都市左京区吉田本町
    • 年月日
      2015-03-17 – 2015-03-19
  • [学会発表] Improving Statistical Machine Translation Accuracy Using Bilingual Lexicon Extraction with Paraphrases2014

    • 著者名/発表者名
      Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi
    • 学会等名
      In Proceedings of the 28th Pacific Asia Conference on Language, Information and Computing (PACLIC2014)
    • 発表場所
      Phuket, Thailand
    • 年月日
      2014-12-12 – 2014-12-14
  • [学会発表] Constructing a Chinese-Japanese Parallel Corpus from Wikipedia2014

    • 著者名/発表者名
      Chenhui Chu, Toshiaki Nakazawa, Sadao Kurohashi
    • 学会等名
      In Proceedings of the 9th Conference on International Language Resources and Evaluation (LREC2014)
    • 発表場所
      Reykjavik, Iceland
    • 年月日
      2014-05-26 – 2014-05-31
  • [図書] Using Comparable Corpora for Under-Resourced Areas of Machine Translation2015

    • 著者名/発表者名
      Chenhui Chu, Toshiaki Nakazawa and Sadao Kurohashi
    • 総ページ数
      印刷中
    • 出版者
      Springer
  • [備考] Chenhui Chu

    • URL

      http://lotus.kuee.kyoto-u.ac.jp/~chu

URL: 

公開日: 2016-06-01  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi