2012 Fiscal Year Research-status Report
統計・用例機械翻訳のためのアラインメント向上と多言語文法パターン公開
Project/Area Number |
23500187
|
Research Institution | Waseda University |
Principal Investigator |
LEPAGE YVES 早稲田大学, 理工学術院, 教授 (70573608)
|
Keywords | 国際情報交換(オーストリア) / 国際情報交換(フランス) |
Research Abstract |
機械翻訳の統計アプローチにも用例アプローチにも翻訳品質の大きい影響を与える二言語間のデータは翻訳テーブルと言う。翻訳テーブルは二カ国語のコーパスから自動的に獲得された単語や句や単語列や文法パターンの間の翻訳関係を表すデータてある。本研究ては 、以前に開発されたアラインメントツールの向上を目指す。三カ所検討する:1、翻訳したい文に対しての特殊翻訳テーブル生成。2 、より長い単語列(句)の翻訳関係獲得。3、よりよい文法パターンの獲得(2012年度から)。 比較のため従来の技術てEuroparlコーパスの11カ国語の全ての対の間基準実験設定と実行を行ない、翻訳品質を測定した。一つの言語対の実験は20時間かかり、8Mbのストレージが必要となる。そのため、データ処理・保存、処理の流れなどの実験枠組みをたてた。 1、特殊翻訳テーブル生成:2011年度で開発した特殊翻訳テーブル生成方法の変更の検討。 2、より長い単語列の翻訳関係獲得とその有用性:アラインメントツールの開発者との共同研究で得られる翻訳テーブルの有用性を測定し、統計翻訳分野のベースラインシステムMosesの同レベル翻訳品質が可能だと証明した。フランスの自然言語処理学会大会(TALN012)と欧州機会翻訳学会大会(EAMT2012)と機械翻訳雑誌(Machine Translation)で発表した。 3、よりよい文法パターンの獲得の検討のためアラインメントツールで得られたパターンの特徴の検討を開始した。パターン変数の平均長さを計算するプログラムを開発した。Mosesとの比較のため、階層的統計翻訳(hierarchical SMT)の勉強開始の上、11カ国語の全ての対の間の階層的統計翻訳実験の最中。アラインメントツールで得られた文法パターン翻訳テーブルをMosesフォーマット変換プログラムも開発中。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1、新しいアラインメントツールの開発は最初の計画以上速かったため、2012年度で公開されました。またその有用の証明を国際共同研究で国際会議EAMT2012に発表された。手法の基礎説明と改善と結果はMachine Translationの雑誌論文として発表されました。 2、特殊翻訳テーブル生成について、2011年度で開発した生成方法の変更を検討する。一つだけの言語対の実験を行なったためやや遅れている。違う学生さんに生成方法変換を頼む予定。また全ての言語対の実験を行なうため、新しい企画を立てた。 3、より文法パターンの生成について、おおむね順調で親展している。パターンの特徴パラメターを計算するプログラムを開発済みです。想像より困難な問題であったため、ランダム手法を使い、パラメター推測を行なう。今から全ての言語対に応用する。そのためLREC2012年に論文提出に遅れた、次のLREC2014を目指す。 4、データ公開サーバの設定と設計はやや遅れている。学生さんのサーバ設定と管理の勉強は予定より遅いが、データの保存と整理は順調に進めている。
|
Strategy for Future Research Activity |
最終年度であるため、データの公開を目指して、データ生成の作業を順調に進めるため研究室内で新しい計画をたてた。その計画では月ごとにプログラム設計・実験結果・データ生成・サーバ設定と設計・論文執筆を含めて、2014年3月までに間に合うように設計した。 雑誌論文の発表に付きまして、アラインメントツールの改善とその実験についての論文を日本言語処理学会の雑誌「自然言語処理」に提出した。一段階の査読検査を超え、二段階の査読結果を待ち中。また、今年度を目指している論文はそれぞれの研究課題の点(特殊翻訳テーブル、より長い単語列を含む翻訳テーブル、より良い文法パターン生成)について少なくとも日本の言語処理学会第20年次大会に論文の提出予定。 テーダ公開に付きまして、言語データ公開発表場として自然言語処理分野でよく知られるLRECの国際会議に研究のまとめ論文を提出予定。その時サーバの紹介をする予定。
|
Expenditure Plans for the Next FY Research Funding |
今までバイト代は主に修士課程学生に依頼する仕事に使用したが、今から技術者に依頼することを考えている。加速化する必要のある主な作業は次の二つの作業になる: 1。全ての言語対の特殊翻訳テーブルと文法パターンのデータ生成。 2。データ公開サーバの設計と設定 また、論文発表のための予算を予定より大きく使用を考えている。
|
Research Products
(3 results)