2016 Fiscal Year Annual Research Report
Construction of a Japanese-English parallel corpora of interpreter-mediated press conferences and applied studies
Project/Area Number |
16H02915
|
Research Institution | International Christian University |
Principal Investigator |
松下 佳世 国際基督教大学, 教養学部, 准教授 (90746679)
|
Co-Investigator(Kenkyū-buntansha) |
山田 優 関西大学, 外国語学部, 准教授 (70645001)
石塚 浩之 広島修道大学, 人文学部, 准教授 (40737003)
歳岡 冴香 大阪大学, 国際教育交流センター, 特任助教 (40708468)
船山 仲他 神戸市外国語大学, 外国語学部, 教授 (10199416)
染谷 泰正 関西大学, 外国語学部, 教授 (40348454)
水野 的 青山学院大学, 文学部, 教授 (90350321)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 通訳 / 翻訳 / コーパス / 記者会見 / 英語 |
Outline of Annual Research Achievements |
平成28年度は通訳コーパスの仕様決定が主な目標であったが、検討と調査の結果、音声言語の通訳コーパスを構築するために、書記言語の翻訳プロセスを記録するツールであるCRITT TPR-DBを併用できることが確認できた。 CRITT TPR-DBは元々、翻訳者の訳出プロセスデータを収集・分析するためのツールで、翻訳者のアイトラッキングデータやキーボードストロークのログを時間経過に合わせて記録する。このツールでデータを記録することにより翻訳者が翻訳を開始してから何分何秒何msec後に、原文のどの単語を読んでいて(視線の位置情報)、何を訳しているのか(キーボード情報)を同定することができる。また詳細な分析用のテーブルも生成することが可能である。CRITT TPR-DBを使用した研究はこれまでに多くの実績があり、データすべて一般公開されている。 今年度の検証を通して、通訳の音声ファイルから、起点言語(原発話)と目標言語(訳出)のトランスクリプション起こし、ELANツールを使って語単位でタグ付けを行い、そのデータをCRITT TPR-DBツールにインポートできることが確認できた。 このようにして、既存のコーパスが持つ研究資源との互換性を確保しつつ、音声の同時通訳データという過去にない特徴が加わり、当該分野の研究の深化に大きく貢献できる確証を得た。また一線級のプロ通訳者による通訳のデータであるという性質上、本コーパスデータが自然言語処理分野などにも貴重な資源となることが確認できた。 以上の成果は、言語処理学会第23回年次大会および、8th Annual International Translation Conferenceで報告を行った(詳細は研究発表の項目を参照のこと)。また、研究手法の拡張性が評価されこともあり、2018年に開催される International Association for Translation and Intercultural Studies (IATIS)国際会議でのワークショップも採択された
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成28年度は当初の計画通り、コーパスの詳細な仕様の検討と設計を行い、次年度以降のデータの加工、入力を円滑に行うための体制を整えた。コーパス構築に必要な3つの要素(①テクストの書き起こし、②コーパスの原発話と訳出の対応付け、③アノテーションの付加)について、順に報告する。 ①については、トライアルを実施してトランスクリプト原案作成を依頼する専門業者を検討し、日本語は東京反訳、英語はvoxtabに依頼することを決定した。専門業者からの納品後、研究代表者・分担者の点検を経たものをトランスクリプト完成版とする。パイロット版コーパス作成のために、三つの会見音源のトランスクリプトを完成させた。加えて70の音源について、英語音声の文字化を専門業者に委託した。 ②については、前述のトランスクリプト完成版の一部について、ELANを使用した原発話と通訳音声の対応付けを行い、必要な作業時間の計測、作業に伴う問題点の洗い出しを行なった。この作業の補助として大学院生1名を雇用した。 ③については、ソフトウェアYAWATを使用したアノテーションの付加について、作業手順確認および問題点の洗い出しを行なった。3月に共同研究者であり、同ソフトウェア開発者であるMichael Carl氏を交えた仕様検討会を実施した。また、応用研究の可能性についても意見交換した。 前述の②と③の作業と検討を経て、対応付けの際、基本的には文単位のセグメント化の後、既存コーパス(European Parliament Interpreting Corpus:EPIC) )での基準を援用し、構文やイントネーションを参考にさらにセグメント化するという2段階でのセグメント化の方針をたてた。さらに、③の前段階としてのELAN使用の有用性について、再検討の余地があることを確認した。 このように、本研究は概ね計画通りに進展しており、平成29年度からは本格的にコーパス構築を進められるものと期待している。
|
Strategy for Future Research Activity |
平成28年度の実績を踏まえ、平成29年度以降の研究の進め方について、項目別に記す。 ①データ作成作業:前年度に確定した仕様と入力手法により、データの作成体制を確立する。セグメント化はEPIC(前述) の基準を準用し可能な限り自動的に行い、次に人手で修正とアラインメントとタイムスタンプの付与を行う。一部のトランスクリプトは単語レベルのアラインメントを行う。一部はELANに入力し、現時点で可能な分析を行うためのデータとし、アノテーションをタグ情報として付加する。並行して先行プロジェクトにおける通訳対訳コーパス (EPIC、CLAIRなど) の仕様について分析し、応用研究での活用に関し、技術的な側面を含め調査する。 ②作業効率の向上:初年度の研究により明らかになった課題について対策を実施する。具体的な方策は以下の通り。[1] 作業時間を計測し、異なる条件での作業速度を比較[2] 音声認識ソフトなどの活用[3] セグメント化した情報を分析ツールにインポートするための方法を検討[4] トークン化の方法を検討[5] タイムスタンプ情報の入手方法と付与の方法について検討[6] アノテーションの仕様確定とタグ付けのための作業支援ツールの設計開発。 ③作業手順の平準化と標準化: 本コーパスの資源は日本記者クラブの通訳付き記者会見であり、データ化可能な動画音声は半永久的に入手可能である。今回の研究期間終了後も継続的にデータを蓄積・運用できるよう、作業の平準化と標準化を図る必要がある。そのための準備として以下の方策をとる。[1]データの品質の確認[2] エラー修復とデータの標準化ß[3] エラーの様態分類と防止策の検討。 ④成果発表:中間報告:コーパス構築作業の進展に応じ、各研究メンバーの専門領域での質的手法を中心とした研究を実施する。プロジェクトとしての研究成果は、2018年7月のIATIS(前述)での発表を照準に進める。
|
Research Products
(6 results)