研究課題/領域番号 |
15J10649
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
小田 悠介 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2015-04-24 – 2018-03-31
|
キーワード | 音声翻訳 / 機械翻訳 / 自然言語処理 / 機械学習 / アルゴリズム / 音声言語処理 / ソフトウェア工学 |
研究実績の概要 |
本年度は同時音声翻訳の特徴である逐次的な入力に対する構文情報の生成手法、及び、このようにして生成された構文情報の統計的機械翻訳へ応用する手法について研究および発表を行った。具体的には、同時音声翻訳で頻繁に扱われる、文として完結していない単語列に対して、不足している情報を補いながら構文解析を行う手法の開発、及びこの結果を用いた機械翻訳の精度向上を行った。これらの結果は自然言語処理のトップレベル国際会議NAACL(2015年6月)、及びACL(2015年7月)にて発表を行った。 本研究では、実社会から得られる二か国語音声や字幕付き動画などを用いて機械翻訳器の学習を行うことを目標の一つとしている。本年度は、一般講演180コマ、約36時間分の映像データを同時通訳者に提示して得られた同時通訳音声データから、専門家によるテキスト書き出しを行い、音声、及び対応するテキストの日英対訳コーパスを構築した。 また、機械翻訳の最も基本的な技術である翻訳アルゴリズムについても研究を行った。具体的には、事前並べ替えと呼ばれる、翻訳元言語の単語の順序を翻訳先言語に近づける手法について、この結果を複数用いる新たな翻訳アルゴリズムを開発し、これが従来の翻訳手法よりも実行速度と翻訳精度の両面で優れていることを示した。この結果は国内で評価されており、言語処理学会年次大会(2016年3月)にて行った発表で優秀賞(受賞率約1/60)を受賞した。 より発展的な研究として、機械翻訳の技術を音声やテキスト以外のデータに適用するための考察及び初歩的な手法の開発を行った。具体的には、翻訳元、あるいは翻訳対象をプログラミング言語として、自然言語とプログラムの自動変換技術に関する一連の手法の開発に取り組んだ。この成果はソフトウェア工学のトップレベル国際会議であるIEEE/ACM ASE(2015年11)月にて発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
データ収集の面では、今年度実施した作業により、日本語から英語への一方向の設定に関して比較的大規模な同時通訳コーパスを収集することができた。このデータは今後の研究を遂行するための重要な材料となると考えられる。 本年度の研究は、全体として翻訳アルゴリズムの理論面を重視したものとなった。代表としては言語処理学会にて発表を行った翻訳アルゴリズムがあり、これは音声翻訳に限らず一般の機械翻訳について精度を向上させるアルゴリズムである。 また、音声という限られた範囲の入出力だけでなく、より幅広いデータを対象として音声翻訳の知見を応用することについても考慮しており、本年度はその一つとしてプログラミング言語を入力、または出力とした翻訳手法についても研究を行い、一定の知見を得た。
|
今後の研究の推進方策 |
データの収集に関しては今後も継続して行う。特に現在は日本語から英語、英語から日本語の各設定についてのデータ以外は取り扱っておらず、また本年度に対象としたデータも一般講演であり、より一般的な同時通訳、及び機械翻訳のアルゴリズムを研究するにあたって、他の言語対や対象分野に関するデータも収集する必要があると考えている。 また、ここ2年ほどで機械翻訳に深層学習を取り入れた手法の研究が盛んに行われ始めており、特に2014年、2015年に多くの新たな手法が提案された。同時通訳に関しても深層学習に関する手法を導入する余地はあると考えられるため、これらについての研究も追加で行う予定である。現在のところ、深層学習を用いた機械翻訳手法は研究の進展が浅く、基礎的なアルゴリズムが提案されるに留まっている。このため、本研究でもまずは基礎的な知見を得るための手法の提案や実験を中心に考察を進める必要があると考えている。
|