研究課題/領域番号 |
25280062
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
中川 聖一 豊橋技術科学大学, リーディング大学院教育推進機構, 特任教授 (20115893)
|
研究分担者 |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
井佐原 均 豊橋技術科学大学, 情報メディア基盤センター, 教授 (20358881)
山本 一公 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
土屋 雅稔 豊橋技術科学大学, 情報メディア基盤センター, 准教授 (70378256)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | 音声認識 / 機械翻訳 / 音声翻訳 / 字幕 / 講義音声 / 日英翻訳 / 英日翻訳 |
研究実績の概要 |
本年度は、フレーズベースの機械翻訳以外に、階層的フレーズベース翻訳、ツリーストリングベース機械翻訳の比較研究を行い、講義音声の英日翻訳では、フレーズベース翻訳が最も優れていることを示した。 次に、講義音声中によく出てくる頻出句の日本語訳を登録し、機械翻訳の質の向上を図った。頻出句の定義として単語のnグラムと構文解析木に基づく句単位の比較、および、日本語訳の登録方法として、パラレルコーパスに頻出句の日英ペアを追加する方法とフレーズ翻訳テーブルに直接追加する方法を比較検討した。 その結果、頻出句の単位は、nグラムよりも構文解析木による句単位の方が優れていること、日本語訳の登録方法としては、直接フレーズテーブルに追加する方法が副作用が少なく優れていることが分かった。すなわち、パラレルコーパスとして追加する方法では、頻出句の日英ペアの単語列のアライメントが、他のコーパスのアライメントに悪影響を及ぼす可能性があることが分かった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度の平成25年度は、日本語講義音声の英語への翻訳を試みたが、以前から指摘されているように、英語から日本語への翻訳よりも難しく、しかも話し言葉であるため、翻訳が非常に難しいことが分かった。そこで、まず、英語の講義音声を日本語に翻訳する技術を開発することにした。この技術を最終年度に、日本語講義音声から英語への翻訳に利用するという方針にした。 平成27年度は、平成26年度に引き続いて、英語講義音声の日本語への音声翻訳システムを開発してきた。その結果、フレーズベースに基づく翻訳モデルが良いこと、講義ドメインへの適応技術として、対象ドメインの頻出句を抽出し、その日本語訳をフレーズテーブルに登録する方法が良いこと、を明らかにした。 この枠組みで、講義の話し言葉音声のパラレルコーパスを増やして行けば、機械翻訳の質は向上するであろうという見通しを得た。
|
今後の研究の推進方策 |
最終年度の計画は、講義音声の翻訳で問題となる音声認識の誤りに頑健な翻訳モデルの構築を図ることと、英日翻訳技術を日英翻訳技術に利用することである。 まず初めに、音声認識誤りの対策としては、講演音声であるTEDコーパスを直接音声認識し、音声誤りを含んだパラレルコーパスを構築し、これに基づいて翻訳モデルを構築することである。しかし、これには膨大な作業量を要するので、効率よく音声誤りをシミュレートできる手法を開発する。具体的には、音響的に類似な単語ペアの自動抽出、言語コンテキスト的に類似な単語ペアの自動抽出、の技術を開発し、これにより与えられた発話文の各単語に対して音響的・言語コンテキスト的に類似な単語に置換することによって、音声誤りを模擬する手法を開発する。これによって、音声誤り付きパラレルコーパスによる翻訳モデルを構築し、音声認識誤りに頑健な翻訳手法を開発する。 最後に、開発した英語講義音声を日本語テキストに翻訳する英日音声翻訳手法を日英音声翻訳に適用し、評価を行う。
|
次年度使用額が生じた理由 |
研究設備費や学会参加のための出張旅費に関して、学内の他の補助金から流用することができたため。
|
次年度使用額の使用計画 |
最終年度は、通常以上に、学会出張費(他の研究者に技術提供を行ってもらう調査出張費も含む)に使用する。また、最終年度の評価実験のために計算機備品を購入する。
|