2011 Fiscal Year Research-status Report
統計・用例機械翻訳のためのアラインメント向上と多言語文法パターン公開
Project/Area Number |
23500187
|
Research Institution | Waseda University |
Principal Investigator |
LEPAGE YVES 早稲田大学, 理工学術院, 教授 (70573608)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 機械翻訳 / Europarlコーパス / 翻訳テーブル / 単語アラインメント |
Research Abstract |
機械翻訳の統計アプローチにも用例アプローチにも翻訳品質の大きい影響を与える二言語間のデータは翻訳テーブルと言う。翻訳テーブルは二カ国語のコーパスから自動的に獲得された単語や句や単語列や文法パターンの間の翻訳関係を表すデータである。本研究では、以前に開発されたアラインメントツールの向上を目指す。三カ所検討する:1、翻訳したい文に対しての特殊翻訳テーブル生成。2、より長い単語列(句)の翻訳関係獲得。3、よりよい文法パターンの獲得(2012年度から)。 比較のため従来の技術でEuroparlコーパスの11カ国語の全ての対の間基準実験設定と実行を行ない、翻訳品質を測定した。一つの言語対の実験は20時間かかり、8Mbのストレージが必要となる。そのため、データ処理・保存、処理の流れなどの実験枠組みをたてた。 1、特殊翻訳テーブル生成:テストデータ(実際に翻訳したい文)を利用し、普段技術と同じ精度のより小さい(75%減少)翻訳テーブルの生成ができた。実験では西・独の言語データを使用した。2012年度に特殊翻訳テーブルの生成加速に取り込む。言語処理学会第18回年次大会でポスターセッションでこの研究結果を発表した。 2、より長い単語列の翻訳関係獲得:より長い単語列の翻訳関係を獲得する手法を設計し、実験を行なって、アラインメントツールの向上できた。従ってアラインメントツールの新しいバージョンを公開した。また、その新しい手法を利用して、11カ国語の間の翻訳実験を行ない、翻訳品質を測定した。PACLIC2012、LTC2012、言語処理学会第18回年次大会で本研究の内容で発表した。本研究課題でバイトの大学生さんが北九州産業学術推進機構(FAIS)のひびきの賞優秀賞を受賞した。 3、よりよい文法パターンの獲得の研究は2012年度から計画通り開始する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
比較のため従来技術でEuroparlコーパスでの11カ国語の基準実験が修了した。生成されたデータ(実験設定・翻訳テーブルなど)と実験結果(複数の尺度での翻訳品質測定結果)を保存した。1、特殊翻訳テーブルの生成が計画通り進んだ。2012年度加速に取り込む。2、より長い単語列の翻訳関係獲は当初の計画以上に進捗している。2011年度で研究結果発表もできた。3、計画通り、よりよい文法パターンの獲得の研究は2012年度に開始する。データの公開のためのサーバー設定はやや遅れている。Global IPの獲得、サーバー設定、実験結果と翻訳テーブルのアクセスのホームページの作成は3月から開始した。
|
Strategy for Future Research Activity |
1、翻訳したい文に対しての特殊翻訳テーブルの生成:生成の加速のため、翻訳したい文に出現する単語の頻度を利用し、コーパスを減少する手法の導入を考えている。減少したコーパスの処理時間は当然に減ると考えられる。問題点として、減少したコーパスから得られる単語列(句)間翻訳確率の推定精度が下がることが想定できる。その問題を解くため、単語翻訳確率に基づいたサンプリング手法を検討する。3、よりよい文法パターンの獲得の研究では、アラインメントツールのオプションを利用し、パターン変数の翻訳関係の計算の問題が残っている。そのため、前処理として同じアラインメントツールの使用し、単語の翻訳関係を計算してからその翻訳関係を使うと考える。従ってパターンの生成処理は、二段階で行なうと考えている。また、文法パターンで翻訳するための従来技術の検討する。
|
Expenditure Plans for the Next FY Research Funding |
次年度は研究の最終年度になるため、よりよい文法パターン獲得の研究課題に加え、研究結果公開・データ公開は主な作業になる。従って、研究費の使用計画はパターン獲得実験とその精度測定実験を行なうためのバイト代と会議出張費とサーバー運営とデータ公開のためのウエッブページ編集と結果可視化に必要なバイト代になると見込む。即ち、次年度の研究費は主に旅費と人件費に使用と計画する。
|
Research Products
(4 results)