研究課題/領域番号 |
16H02915
|
研究機関 | 立教大学 |
研究代表者 |
松下 佳世 立教大学, 異文化コミュニケーション学部, 准教授 (90746679)
|
研究分担者 |
船山 仲他 神戸市外国語大学, 外国学研究所, 名誉教授 (10199416)
石塚 浩之 広島修道大学, 人文学部, 教授 (40737003)
山田 優 関西大学, 外国語学部, 教授 (70645001)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | 通訳 / 翻訳 / コーパス / 英語 / 記者会見 / 順送りの訳 / サイト・トランスレーション |
研究実績の概要 |
本研究は、我が国の通訳翻訳研究の活性化を目指して,研究者が広く利用可能な日英の通訳の対訳コーパスを構築することを目的としたものであり、平成30年度は4年間のプロジェクトの3年目に当たった。研究実施計画には、前年度の2倍の作業員を投じてコーパスの構築・点検を行うこと、ならびに、収録済データを使ってコーパスの応用可能性の検証を行うことなどを掲げ、これらを概ね予定通り実施した。また、これまでは同時通訳データの収録を先行させていたが、平成30年度から逐次通訳にも着手した。基本的な技術はこれまでと同じだが、人手による工程が一部異なるので、この方法を確立し、作成マニュアルにも反映した。 一方、前年度から作業員(学部生・院生)の多くが入れ替わったため、作業に習熟していない作業員がデータの入力や点検を行った場合、実際にどれくらい時間がかかるのか、また作業員ごとのばらつきの幅や、作業後のエラーの割合はどの程度なのかを検証したところ、当初の予想以上に習熟に時間を要することや、想定していたよりも作業員によって作業スピードや精度に違いがあることがわかった。このため、コーパスの品質を向上させることを優先し、作業員の目視による3段階目の品質確認工程を追加した結果、当初期待していた数の記者会見データの収録にはいたらなかったが、一定以上の品質を保つことができた。 こうした気づきや、今後に向けた改善点については、平成30年度の日本通訳翻訳学会年次大会にて進捗報告の形で発表したほか、実際に収録済みデータを用いたコーパスの活用法についてのワークショップを同学会関西支部例会で実施し、幅広く成果を共有した。また、その成果の一部は IATISなど海外の国際会議でも発表した。発表の詳細、ならびに各メンバーによる応用研究の成果については、「現在までの進捗状況」ならびに「研究発表」の項目に詳しく記載する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成30年度の大きな目標は、前年度中に確定したコーパスの詳細仕様およびコーパスの作成方法に従って、コーパス収録データを量産することであった。ただ、前述の理由から一定の作業スピードを維持することができず、目標数(ビデオ数約50本)に対し、実際には40本程度しか達成できなかった。しかし、研究資源として必要な品質を保証しつつ、公開段階としては十分な量も確保できる見通しであり、進捗は概ね順調と言える。 平成30年度のもう一つの目標である応用研究の展開については、国内外で積極的に発表を行うなど、着実な成果をあげることができた。前述の日本通訳翻訳学会関連の発表に加えて、香港で開かれたIATIS 6th International Conferenceでも、海外の研究協力者とともにワークショップ形式の発表を行い、本コーパスの作成方法および使用方法を海外の研究者と共有し、今後の研究の発展可能性について活発な意見交換を行なった。 これにより、本コーパスの作成方法を援用した通訳プロセスデータ収集が、翻訳通訳研究分野における教育的研究・活用に資するものであることが確認され、世界各地の多言語データの収集が加速した。本プロジェクトの研究協力者で、香港でも共同発表を行なった米ケント州立大学のMichael Carl教授が牽引する形で、本研究の手法を用いたデータの収集と活用が活発化している。 国内においても、奈良先端科学技術大学院大学の中村哲教授らによる「科研費基盤(S): 次世代音声翻訳の研究」プロジェクトとの連携が始まった。本研究で収集した記者会見通訳データを、次世代音声翻訳(ニューラル同時通訳)の訓練データとして提供するなど、相互で情報を共有して互いの研究を促進するのが目的である。 これらの活動を通して、収録データの品質が重要であることが、再認識されたため、前述の品質管理の工程が盛り込まれた。
|
今後の研究の推進方策 |
本プロジェクトの最終年度となる令和元年度は、量的な目標と質的な目標のバランスを見極めながら、コーパスの構築を着実に実施していきつつ、応用研究をさらに進める計画である。 まず、前年度に引き続き、コーパスに収録するデータの加工、入力、点検、整理を行う。データ作成の前工程、すなわち、記者会見動画から音声データを抽出・加工し、人工知能搭載の音声認識ツールで処理し、テキスト化する工程は、主に関西大学で進める。その後工程となるELAN上での校正作業は、前年度と同様、進捗をリアルタイムで管理・共有できるコミュニケーション・ツール(Trello、Slackなど)を活用しながら、立教大学、関西大学、広島修道大学の連携により進める。 作業員が行なっている作業の内容やワークフローについては、これまでも順次、手順書にまとめてきた。この手順書は、本プロジェクトの今後の展開に応じて改訂を行う。これにより、定期的に発生する作業員の入れ替わりにも対応できるようにする。 令和元年度はコーパス公開の準備も進める。公開方法の検討は、専門業者との連携の可能性を探ることから始め、プロジェクト期間内の公開を目指す。公開はELANデータへのアクセスを原則とするが、データ内部の情報だけでなくメタデータを整理し、Text Encoding Initiative (TEI)やCorpus Encoding Standard (CES) などの標準規格への準拠により、コーパスの汎用性を高める。データ公開形式等についても、研究利用者の状況に即したものにすべく検討を行う。 前年度までに一定量のデータが得られていることから、次年度は、これらのデータを用いた応用研究や教育への活用を進める。その成果は、日本通訳翻訳学会の年次大会および支部例会のほか、9月に南アフリカで開かれる国際学会でも発表する予定である。
|