2015 Fiscal Year Annual Research Report
Project/Area Number |
15J12597
|
Research Institution | The University of Tokyo |
Principal Investigator |
江里口 瑛子 東京大学, 大学院工学系研究科, 特別研究員(DC1)
|
Project Period (FY) |
2015-04-24 – 2018-03-31
|
Keywords | 自然言語処理 / 機械翻訳 / 機械学習 |
Outline of Annual Research Achievements |
本年度は、翻訳元言語における構文構造を利用した、ニューラル機械翻訳モデルの提案を行なった。ニューラル機械翻訳モデルは、単一のニューラルネットワークで記述された翻訳モデルであり、比較的単純なモデル構造でありながらも、英仏・英独などのいくつかの欧州言語組おける翻訳タスクにおいて、高い翻訳性能を報告している。しかしながら、これら既存のニューラル機械翻訳モデルでは、言語構造の差異や特徴に着目しておらず、また、モデル化に際して、各言語に内在する構造情報などは一切利用されていなかった。ニューラル機械翻訳以前の研究では、言語構造の異なる遠縁の言語組 (日本語と英語など) を対象とする際、各言語の構文情報をうまく取り入れることで翻訳性能が改善することが報告されている。このような知見に基づいて、まず、翻訳元言語の構文情報として句構造情報に着目し、モデルの開発を進めた。 提案モデルは、以下の3つの特徴を有する。1) 翻訳元言語における句構造情報を陽に利用、2) 入力単語あるいは入力句と、出力単語の関連度合いを同時学習、3) サンプリングに基づく手法を導入し、ニューラル機械翻訳モデルの学習コストを削減、学習の効率化をはかる。実データを用いて小規模な英日翻訳実験を行なったところ、提案モデルが既存モデルの性能を改善し、入力単語/句と出力単語間の関連度合いもまた柔軟に学習していることを確認した。 以上、得られた研究成果は論文にまとめ、国内会議にて発表を行った。本研究内容は国内会議で評価されており、言語処理学会にて発表した際に若手奨励賞を受賞した (若手奨励賞受賞件数: 5件/ 194件)。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、構文情報を導入することで、既存のニューラル機械翻訳モデルの性能にさらなる改善が見込めることがわかった。実際に、英日翻訳タスクに提案モデルを適用し、得られた翻訳文の分析を行ったところ、翻訳元言語の句構造情報を利用することで、例えば英日翻訳の場合、翻訳先言語 (英語) の冠詞を伴う名詞句と、翻訳先言語 (日本語) の名詞を、高く関連づけていることなどがわかり、ある程度、期待していた通りの結果を得た。また、先行研究の成果を利用することで、翻訳モデルにおける学習コストの削減にも成功している。今後の大規模なデータを用いた実験に向けて、実装面においても十分な準備を行うことができた。
|
Strategy for Future Research Activity |
今後は、本年度の提案モデルをさらに改良し、小規模・大規模それぞれ実データを用いて翻訳性能の比較・評価実験を行う予定である。また、現在は、提案モデルを英日翻訳のみに適用しているため、その他の言語組においても同様の結果が得られるか調査していきたい。
|
Research Products
(1 results)