2007 年度実績報告書

ベイズ統計学を利用した構文情報に基づく統計的機械翻訳モデルの開発

研究課題

研究課題/領域番号	19500114
研究機関	筑波大学
研究代表者	山本幹雄筑波大学, 大学院・システム情報工学研究科, 教授 (40210562)
キーワード	シンクロナスCFG / 階層フレーズ / CKYパージング / ベイズ学習 / デコーダ
研究概要	前半1年目である本年度は、実験ツールの開発と基本モデルの検討を行った。実験ツールとしては、David Chiangが提案しているシンクロナスCFGルールを対訳コーパスから自動的に獲得する(モデル構築)ツールと、抽出されたシンクロナスCFGをCKY法によってパージングしながら翻訳を行うデコーダを試作した。これらの作成したツールと特許文対訳コーパスを用いて、日英間の翻訳結果を分析した結果、現在のシンクロナスCFGモデルは書き換えルールに1つ以上の単語を「持つ制約(語彙化)が思った以上に厳しい制約になっており、広範囲な適用を妨げていることを確認した。これを避けるために、適用範囲は広いが翻訳精度は落ちる一般性の高いルールと、従来と同じく適用範囲は狭いが比較的高い翻訳精度が期待できるルールなど一般性のレベルの異なるルールを混在させてベイズ的学習を行うアルゴリズムを検討した。シンクロナスCFGの一般性の程度については、右辺の書き換え後の終端/非終端記号の数による一般性め違い(少ない方が一般的)、語彙化した単語をクラスタリングして非終端記号とする一般化(これはクラスタリングする単語の数によって一般性の程度を制御できる)、もともとの非終端記号を区分する特殊化(一般的であったルールを特殊にする)、などを考案した。次年度は、これらの一般性のレベルの異なるルールを混在させたモデルを実際に構築し、翻訳性能評価によって最適な組み合わせを実験的に調べる予定である。また、いくつかの競争的コンテストに参加して他モデルとの性能を比較する予定である。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 特許情報を対象とした機械翻訳:共通基盤による評価タスクを目指して2007
- 著者名/発表者名
  内山将夫
- 学会等名
  情報処理学会自然言語処理研究会
- 発表場所
  徳島大学工学部(徳島市)
- 年月日
  2007-07-25