前半1年目である本年度は、実験ツールの開発と基本モデルの検討を行った。実験ツールとしては、David Chiangが提案しているシンクロナスCFGルールを対訳コーパスから自動的に獲得する(モデル構築)ツールと、抽出されたシンクロナスCFGをCKY法によってパージングしながら翻訳を行うデコーダを試作した。これらの作成したツールと特許文対訳コーパスを用いて、日英間の翻訳結果を分析した結果、現在のシンクロナスCFGモデルは書き換えルールに1つ以上の単語を「持つ制約(語彙化)が思った以上に厳しい制約になっており、広範囲な適用を妨げていることを確認した。これを避けるために、適用範囲は広いが翻訳精度は落ちる一般性の高いルールと、従来と同じく適用範囲は狭いが比較的高い翻訳精度が期待できるルールなど一般性のレベルの異なるルールを混在させてベイズ的学習を行うアルゴリズムを検討した。シンクロナスCFGの一般性の程度については、右辺の書き換え後の終端/非終端記号の数による一般性め違い(少ない方が一般的)、語彙化した単語をクラスタリングして非終端記号とする一般化(これはクラスタリングする単語の数によって一般性の程度を制御できる)、もともとの非終端記号を区分する特殊化(一般的であったルールを特殊にする)、などを考案した。次年度は、これらの一般性のレベルの異なるルールを混在させたモデルを実際に構築し、翻訳性能評価によって最適な組み合わせを実験的に調べる予定である。また、いくつかの競争的コンテストに参加して他モデルとの性能を比較する予定である。
|