2008 Fiscal Year Annual Research Report
Project/Area Number |
20500149
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
山本 博史 National Institute of Information and Communications Technology, 知識創成コミュニケーション研究センター言語翻訳グループ, 専攻研究員 (00395013)
|
Keywords | 自然言語処理 |
Research Abstract |
(1)タグ付きコーパス作成のガイドラインの作成とその評価 本研究の目的である半教師あり学習アルゴリズムでは、教師信号であるタグ付きのアライメントコーパスが必要となる。そこで、まずこのコーパス作成のためのガイドラインの作成と、その妥当性の評価を行った。本ガイドラインではアライメントの種類を強対応、弱対応、擬似対応の3種類にわけ、それぞれに対して基準をもうけている。書き言葉コーパス(LDC)と話し言葉コーパス(BTEC)の2種類の中英対訳コーパスに対してアライメントを行い、その評価を行った。その結果、良好なアライメント精度を得ることができ、正当性を確認できた。 (2)教師あり学習による単語アライメント 半教師あり学習の前段階として、中英対訳コーパスに対して教師ありの条件での単語アライメントを試みた。この時、用いた教師信号は、(1)のガイドラインに従って付与された単語アライメント情報の他、中英の単語間の共起率、中英対訳辞書、文中の相対位置の違い、品詞タグ等である。学習方法としてはコンデイショナルランダムフィールド(CRF)を用いている。この教師あり学習によって得られたモデルを用いて単語アライメントを行った結果、従来法であるGIZA++よりも7%低いアライメント誤り率を得ることができ、付加情報の有用性が確認できた。 (3)単語アライメントに対する構文木の利用 対訳関係にある文対の片側の言語文に対してその構文木が与えられた場合、もう片側の言語の単語順序に対して、制約がかかる。たとえば片側の言語文が単語A、Bという列を含み、かつAとBが部分木をなす場合、もう片側の言語におけるAとBの対訳語も連続して文中に現れる。この性質を利用して一部の単語アライメント誤りを避けることができる。この手法により翻訳の性能がBLEU値で1〜2%向上し、構文木情報の単語アライメントヘの有効性が確認できた。
|