2003 Fiscal Year Annual Research Report
大規模音声言語対訳コーパスを用いた同時的な対話翻訳手法の開発とその評価
Project/Area Number |
15700127
|
Research Institution | Nagoya University |
Principal Investigator |
松原 茂樹 名古屋大学, 情報連携基盤センター, 助教授 (20303589)
|
Keywords | 同時通訳 / 音声翻訳 / コーパス / 機械翻訳 / 構文解析 / 音声対話 / 音声言語 / 有限状態トランスデューサ |
Research Abstract |
本研究では、大規模対訳データから翻訳規則を自動的に獲得し、それを用いて同時翻訳を実行する方式の開発を目的とする。このために初年度は、同時翻訳用例データベースの構築に取り組み、計50万単語規模の英日双方向翻訳用例データベースを、実在する単言語の音声言語コーパスをもとに作成した。具体的には、以下に示す研究を実施した。 (1)同時通訳コーパスを用いた同時通訳発話の分析 本研究を実施するための予備調査として、実際の同時通訳者による通訳発声データを調査し,特徴を分析した。名古屋大学統合音響情報研究拠点で構築されたCIAIR同時通訳対話コーパスを使用した。通訳内容、通訳単位、及び、通訳タイミングについて特徴付け、構築するデータベースの仕様、規則獲得手法の設計、評価法の開発のための知見を獲得した。 (2)翻訳用例データベースの構築音声言語コーパスへの対訳データの付与、及び、対訳対応付け作業を人手により実施し、用例データを作成した。音声言語コーパスとして、CIAIR同時通訳コーパスに収録された英語話者及び日本語話者の発話データのうち、海外旅行をドメインとする25時間分の対話データを使用した。翻訳作業は、通訳の訓練を受けた経験のある翻訳者が原文に忠実に実施し、対訳対応付けは、チャンク等の細かな単位で与えた。 (3)同時翻訳規則の獲得手法の開発翻訳用例データから同時翻訳規則を学習するための手法を開発した。訳出内容と訳出単位情報が付与された各用例データを有限オートマトン学習方式に基づいてまとめ上げ、有限状態トランスデューサとして翻訳規則を表現した。研究代表者らがすでに提案している主辞変換技術、及び、漸進的生成技術を駆使した規則獲得を実施した。また、トランスデューサ上の弧や節点の併合や簡単化を試みた。
|
Research Products
(6 results)
-
[Publications] 大原 誠: "同時通訳を介した異言語間対話の時間的特徴-逐次通訳との比較に基づく対訳コーパスの分析"通訳研究. 3. 35-53 (2003)
-
[Publications] Koichiro Ryu: "Bilingual Speech Dialogue Corpus for Simultaneous Machine Interpretation Research"Proceedings of Oriental International Coordinating Committee on Speech Databases and Speech I/O System Assessment. 217-224 (2003)
-
[Publications] Tomohiro Ohno: "Spiral Construction of Syntactically Annotated Spoken Language Corpus"Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering. 477-483 (2003)
-
[Publications] Makoto Ohara: "Automatic Extraction of Translation Patterns from Bilingual Legal Corpus"Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering. 150-157 (2003)
-
[Publications] Yuki Irie: "An Advanced Japanese Speech Corpus for In-car Spoken Dialogue Research"Proceedings of Oriental International Coordinating Committee on Speech Databases and Speech I/O System Assessment. 209-216 (2003)
-
[Publications] Itsuki Kishida: "Construction of an Advanced In-Car Spoken Dialogue Corpus and its Characteristic Analysis"Proceedings of 8th European Conference on Speech Communication and Technology. (2003)