研究課題/領域番号 |
16H02915
|
研究機関 | 立教大学 |
研究代表者 |
松下 佳世 立教大学, 異文化コミュニケーション学部, 准教授 (90746679)
|
研究分担者 |
船山 仲他 神戸市外国語大学, 外国学研究所, 名誉教授 (10199416)
染谷 泰正 関西大学, 外国語学部, 教授 (40348454)
歳岡 冴香 近畿大学, 文芸学部, 講師 (40708468)
石塚 浩之 広島修道大学, 人文学部, 准教授 (40737003)
山田 優 関西大学, 外国語学部, 教授 (70645001)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | 通訳 / 翻訳 / コーパス / 英語 / 記者会見 |
研究実績の概要 |
本研究は、我が国の通訳翻訳研究の活性化を目指して,研究者が広く利用可能な日英の通訳の対訳コーパスを構築することを目的としたものであり、平成29年度は4年間のプロジェクトの2年目に当たった。研究実施計画では、複数の作業員を投じて本格的にコーパスの構築作業を行うとともに、一部の収録済データをもとに、本コーパスの応用可能性の検証を行い、データの品質を確認することを掲げ、これらを予定通り実施した。 同じく計画に盛り込んでいた各研究メンバーの専門領域での応用研究については、松下がコーパスデータの分析から、通訳者のリスク管理ストラテジーを同定し、北京外国語大学にて開かれた4th International Conference on Cognitive Research on Translation, Interpreting and Language Acquisitionおよび米ウィスコンシン大学で開かれたAmerican Translation & Interpreting Studies Association Conference IXにて発表した。大規模な通訳コーパスは世界的にも数が少なく、通訳研究において質的研究と量的研究を組み合わせる手法も十分に確立されていないことから、集まった研究者の注目を集め、将来のコラボレーションに向けた提案も複数寄せられた。また、山田は、コーパス構築作業(「現在までの進捗状況」で詳述)について、同じく北京外国語大学の会議においてワークショップを行ったほか、言語処理学会第24回年次大会においても主たる発表者として成果の一部を報告し、コーパス構築の技術的課題について活発に意見交換した。また、石塚は自らが代表を務める日本通訳翻訳学会の「サイトラ研究プロジェクト」において、山田とともに本コーパスのデータを活用した研究を実施し、潜在的利用者を開拓した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
前述のとおり、平成29年度はコーパスの詳細仕様およびデータの作成方法を確定し、コーパス構築に向けた作業体制を確立した。コーパスの仕様についてはELAN(フリーソフトウェア)に載せるためのルールを決定した。コーパス作成については、人的工数を最も要するとされていた音声からテクストへの書き起こしと、音声とタイミングを合わせたアノテーション付与に、IBM Watson (Bluemix)の自動音声認識を活用することを決めた。これにより大幅な作業効率向上を実現できた。このほか、プロジェクトの実施期間中に作成・公開するコーパスの仕様はELANをベースとしたものにすることや、一部のデータについては、CRITT-DB(YAWAT)にエクスポートした上で原発話と訳出のアラインメントを実施し、詳細分析することなどを決め、仕様も確立した。これらを技術的に実現するためのプログラム(Watson自動音声に音声ファイルを送りELANに搭載するためのプログラムとELAN→CRITT-DBに変換するためのプログラム)も開発した。 作業体制については、総勢十名以上の大学院生および学部生に実際に作業をしてもらう形でパイロット・スタディを実施し、作業上の問題点や品質精度などを検証してデータを量産できる体制づくりを行った。これらの内容を文書化して、作業マニュアルとして反映する作業も進んでいる。詳細については、平成30年6月に開催されるInternational Association for Translation and Intercultural Studies (IATIS)国際会議で具体的な研究結果を交えつつ報告する予定である。 予定していた作業が順調に進んでいるうえ、Watsonが利用可能になったことで予定よりも進捗したと判断できる部分もあるため、全体としては「当初の計画以上に進展している」と評価した。
|
今後の研究の推進方策 |
上記の成果を踏まえ、平成30年度においては、前年度までに検証したデータの品質と方法で、コーパスに収録するデータの量産を本格化し、本研究の目標達成に目途をつけることを目指す。実作業の拠点は、立教大学、関西大学、広島修道大学の3か所であり、地理的に隔たりがあるため、オンラインでの連携を可能とする体制も確立する。 本プロジェクトで構築するコーパスは通訳翻訳研究における研究基盤として重要な意義を持つ。コーパスの資源としている日本記者クラブの通訳付き記者会見記録は、本研究期間終了後も増え続けることが確実であるため、本プロジェクトで確立した方法を継続し、将来的なコーパス拡大を可能とする体制を築くことが望ましい。本プロジェクトの作業人員としては、大学院生、大学学部生を採用しているため、人員交代への対策も必要である。作業マニュアルを完成させ、人員に変化があっても、データの品質を確保できるよう、作業の標準化と平準化を目指す。マニュアルの内容としては、データ品質の確認、エラー修復とデータの標準化、エラーの様態分類と防止策の検討などについての作業手順を含む。 コーパスの運用面については、体制を検討し、研究・教育を目的とした利用者への公開方法を検討する。ELAN形式での公開を基本とするが、YAWATを使用したアノテーション付加などの検討を継続しつつ、将来的な技術革新によるデータ加工の余地も残す。また、コーパスの汎用性を高めるためには、データ内部の情報だけでなくメタデータの整備が不可欠であるため、Text Encoding Initiative (TEI)やCorpus Encoding Standard (CES) などの標準規格への準拠の方法を探る。 本プロジェクトの成果については、前述の国際会議のほか、国内でも、日本通訳翻訳学会の年次大会、関東支部例会、関西支部例会で発表を予定している。
|