2016 Fiscal Year Annual Research Report

Construction of a Japanese-English parallel corpora of interpreter-mediated press conferences and applied studies

Research Project

Project/Area Number	16H02915
Research Institution	International Christian University
Principal Investigator	松下佳世国際基督教大学, 教養学部, 准教授 (90746679)
Co-Investigator(Kenkyū-buntansha)	山田優関西大学, 外国語学部, 准教授 (70645001) 石塚浩之広島修道大学, 人文学部, 准教授 (40737003) 歳岡冴香大阪大学, 国際教育交流センター, 特任助教 (40708468) 船山仲他神戸市外国語大学, 外国語学部, 教授 (10199416) 染谷泰正関西大学, 外国語学部, 教授 (40348454) 水野的青山学院大学, 文学部, 教授 (90350321)
Project Period (FY)	2016-04-01 – 2020-03-31
Keywords	通訳 / 翻訳 / コーパス / 記者会見 / 英語
Outline of Annual Research Achievements	平成28年度は通訳コーパスの仕様決定が主な目標であったが、検討と調査の結果、音声言語の通訳コーパスを構築するために、書記言語の翻訳プロセスを記録するツールであるCRITT TPR-DBを併用できることが確認できた。 CRITT TPR-DBは元々、翻訳者の訳出プロセスデータを収集・分析するためのツールで、翻訳者のアイトラッキングデータやキーボードストロークのログを時間経過に合わせて記録する。このツールでデータを記録することにより翻訳者が翻訳を開始してから何分何秒何msec後に、原文のどの単語を読んでいて(視線の位置情報)、何を訳しているのか(キーボード情報)を同定することができる。また詳細な分析用のテーブルも生成することが可能である。CRITT TPR-DBを使用した研究はこれまでに多くの実績があり、データすべて一般公開されている。今年度の検証を通して、通訳の音声ファイルから、起点言語（原発話）と目標言語（訳出）のトランスクリプション起こし、ELANツールを使って語単位でタグ付けを行い、そのデータをCRITT TPR-DBツールにインポートできることが確認できた。このようにして、既存のコーパスが持つ研究資源との互換性を確保しつつ、音声の同時通訳データという過去にない特徴が加わり、当該分野の研究の深化に大きく貢献できる確証を得た。また一線級のプロ通訳者による通訳のデータであるという性質上、本コーパスデータが自然言語処理分野などにも貴重な資源となることが確認できた。以上の成果は、言語処理学会第23回年次大会および、8th Annual International Translation Conferenceで報告を行った（詳細は研究発表の項目を参照のこと）。また、研究手法の拡張性が評価されこともあり、2018年に開催される International Association for Translation and Intercultural Studies (IATIS)国際会議でのワークショップも採択された
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 平成28年度は当初の計画通り、コーパスの詳細な仕様の検討と設計を行い、次年度以降のデータの加工、入力を円滑に行うための体制を整えた。コーパス構築に必要な３つの要素（①テクストの書き起こし、②コーパスの原発話と訳出の対応付け、③アノテーションの付加）について、順に報告する。 ①については、トライアルを実施してトランスクリプト原案作成を依頼する専門業者を検討し、日本語は東京反訳、英語はvoxtabに依頼することを決定した。専門業者からの納品後、研究代表者・分担者の点検を経たものをトランスクリプト完成版とする。パイロット版コーパス作成のために、三つの会見音源のトランスクリプトを完成させた。加えて70の音源について、英語音声の文字化を専門業者に委託した。 ②については、前述のトランスクリプト完成版の一部について、ELANを使用した原発話と通訳音声の対応付けを行い、必要な作業時間の計測、作業に伴う問題点の洗い出しを行なった。この作業の補助として大学院生１名を雇用した。 ③については、ソフトウェアYAWATを使用したアノテーションの付加について、作業手順確認および問題点の洗い出しを行なった。3月に共同研究者であり、同ソフトウェア開発者であるMichael Carl氏を交えた仕様検討会を実施した。また、応用研究の可能性についても意見交換した。前述の②と③の作業と検討を経て、対応付けの際、基本的には文単位のセグメント化の後、既存コーパス（European Parliament Interpreting Corpus:EPIC) ）での基準を援用し、構文やイントネーションを参考にさらにセグメント化するという２段階でのセグメント化の方針をたてた。さらに、③の前段階としてのELAN使用の有用性について、再検討の余地があることを確認した。このように、本研究は概ね計画通りに進展しており、平成29年度からは本格的にコーパス構築を進められるものと期待している。
Strategy for Future Research Activity	平成28年度の実績を踏まえ、平成29年度以降の研究の進め方について、項目別に記す。 ①データ作成作業：前年度に確定した仕様と入力手法により、データの作成体制を確立する。セグメント化はEPIC（前述) の基準を準用し可能な限り自動的に行い、次に人手で修正とアラインメントとタイムスタンプの付与を行う。一部のトランスクリプトは単語レベルのアラインメントを行う。一部はELANに入力し、現時点で可能な分析を行うためのデータとし、アノテーションをタグ情報として付加する。並行して先行プロジェクトにおける通訳対訳コーパス (EPIC、CLAIRなど) の仕様について分析し、応用研究での活用に関し、技術的な側面を含め調査する。 ②作業効率の向上：初年度の研究により明らかになった課題について対策を実施する。具体的な方策は以下の通り。[1] 作業時間を計測し、異なる条件での作業速度を比較[2] 音声認識ソフトなどの活用[3] セグメント化した情報を分析ツールにインポートするための方法を検討[4] トークン化の方法を検討[5] タイムスタンプ情報の入手方法と付与の方法について検討[6] アノテーションの仕様確定とタグ付けのための作業支援ツールの設計開発。 ③作業手順の平準化と標準化：本コーパスの資源は日本記者クラブの通訳付き記者会見であり、データ化可能な動画音声は半永久的に入手可能である。今回の研究期間終了後も継続的にデータを蓄積・運用できるよう、作業の平準化と標準化を図る必要がある。そのための準備として以下の方策をとる。[1]データの品質の確認[2]　エラー修復とデータの標準化ß[3] エラーの様態分類と防止策の検討。 ④成果発表：中間報告：コーパス構築作業の進展に応じ、各研究メンバーの専門領域での質的手法を中心とした研究を実施する。プロジェクトとしての研究成果は、2018年7月のIATIS（前述）での発表を照準に進める。

Research Products
(6 results)

All 2017 Other

All Int'l Joint Research (3 results) Journal Article (1 results) (of which Int'l Joint Research: 1 results) Presentation (2 results)

[Int'l Joint Research] 中国人民大学(中国)
- Country Name
  CHINA
- Counterpart Institution
  中国人民大学
[Int'l Joint Research] Copenhagen Business School(デンマーク)
- Country Name
  DENMARK
- Counterpart Institution
  Copenhagen Business School
[Int'l Joint Research] ヨハネス・グーテンベルク大学マインツ(ドイツ)
- Country Name
  GERMANY
- Counterpart Institution
  ヨハネス・グーテンベルク大学マインツ
[Journal Article] 記者会見通訳の二言語並行コーパスの構築2017
- Author(s)
  山田優、松下佳世、石塚浩之、歳岡冴香、Michael Carl
- Journal Title
  
  言語処理学会第23回年次大会発表論文集
  
  Volume: - Pages: 1168～1171
- Int'l Joint Research
[Presentation] Corpus-based Research Utilizing Interpreter-mediated Press Conferences in Japan2017
- Author(s)
  松下佳世
- Organizer
  8th Annual International Translation Conference Program
- Place of Presentation
  Qatar National Convention Center/Hamad bin Khalifa University (Doha, Qatar)
- Year and Date
  2017-03-27
[Presentation] 記者会見通訳の二言語並行コーパスの構築2017
- Author(s)
  山田優、松下佳世、石塚浩之、歳岡冴香
- Organizer
  言語処理学会第23回年次大会
- Place of Presentation
  筑波大学（茨城県つくば市）
- Year and Date
  2017-03-16

2016 Fiscal Year Annual Research Report

Construction of a Japanese-English parallel corpora of interpreter-mediated press conferences and applied studies

Principal Investigator

松下 佳世 国際基督教大学, 教養学部, 准教授 (90746679)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] 中国人民大学(中国)

Country Name

Counterpart Institution

[Int'l Joint Research] Copenhagen Business School(デンマーク)

Country Name

Counterpart Institution

[Int'l Joint Research] ヨハネス・グーテンベルク大学マインツ(ドイツ)

Country Name

Counterpart Institution

[Journal Article] 記者会見通訳の二言語並行コーパスの構築2017

Author(s)

Journal Title

[Presentation] Corpus-based Research Utilizing Interpreter-mediated Press Conferences in Japan2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 記者会見通訳の二言語並行コーパスの構築2017

Author(s)

Organizer

Place of Presentation

Year and Date

松下佳世国際基督教大学, 教養学部, 准教授 (90746679)