研究課題/領域番号 |
19K20628
|
研究機関 | 名古屋大学 |
研究代表者 |
宮田 玲 名古屋大学, 工学研究科, 助教 (70804300)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 前編集(プリエディット) / 機械翻訳応用 / 編集支援 / 翻訳品質評価 |
研究実績の概要 |
本研究の目的は、(1)機械翻訳向け前編集事例を広範囲で収集・分析し、人間にとって読みやすく機械でも処理しやすい日本語表現を作成するための前編集ルールの体系を構築することと、(2)前編集ルールを効率的に適用するためのツールを開発することである。2019年度は、この内(1)を対象に、データの収集と分析を進めた。 A. 機械翻訳向け前編集事例の収集 原文の内容を維持したまま、十分な品質の機械翻訳結果が得られるまで原文の書き換えを繰り返す手法を用いて、書き換え事例を収集した。3つの言語方向(日英、日中、日韓)、4つのテキストドメイン(病院内会話、自治体文書、BCCWJ、ニュース記事)、2つの機械翻訳(Google翻訳、TexTra)の全組み合わせ24条件について、25文ずつ計600文を用いた。1つの原文に対する書き換えの履歴と機械翻訳結果をまとめたものを1ユニットとする。各言語方向につき1名の作業者に書き換え作業を依頼した。600ユニット全ての作業が完了し、合計6652件の書き換え事例を収集した。また571/600ユニット(約95%)では最終的に、情報の過不足や文法的な誤りのない翻訳を出力でき、機械翻訳の高いポテンシャルが示された。 B. 収集事例の分析 24条件について10ユニットずつ、計240ユニットを対象に、書き換え事例の人手による類型化を進めた。具体的には、書き換え前後のテキスト差分を抽出・分析しながら、研究代表者が過去に提案した類型に基づき、書き換え方法のタイプを同定していく方法をとった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画調書において第1~2年度で予定していた書き換え事例収集の作業が完了した。複数の言語方向、テキストドメイン、機械翻訳システムを対象に、十分な分量のデータを構築できた。テキストドメインおよび作業者の人数を増やすことも検討しているが、現状のデータで研究を進めることができる。 また第2年度に行う予定であった分析作業にも着手した。
|
今後の研究の推進方策 |
今後は主に以下の研究を行う。 ・前編集事例の類型化:引き続き、240ユニットの書き換え履歴を対象に、1000件程度の書き換え事例の分析・分類を行い、機械翻訳向け書き換え方法を体系的に整理する。 ・書き換えルールの作成と評価:類型化した書き換え方法をルール化し、原文品質及び機械翻訳品質の向上に寄与するか評価する。まずルールごとに、書き換え前後の文を準備し、それぞれ複数の機械翻訳で翻訳する。原文品質は日本語母語話者による可読性の主観評価を行い、翻訳品質は翻訳先言語(英語・中国語・韓国語)を母語とする翻訳者による流暢性・正確性の主観評価を行う。翻訳品質に関しては、自動評価尺度を併用する。 ・書き換えルールのツール化:評価を踏まえ効果の高いルールを選定し、日本語表現の書き換えを支援するツールを実装する。書き換え表現検出、書き換え候補生成、候補ランキングを段階的に実装し、性能を評価する。
|