2008 Fiscal Year Annual Research Report
多言語対訳コーパスを用いた言語間距離の計算とその応用
Project/Area Number |
19500137
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
隅田 英一郎 National Institute of Information and Communications Technology, 知識創成コミュニケーション研究センター言語翻訳グループ, グループリーダー (90395020)
|
Keywords | 自然言語処理 |
Research Abstract |
(A)距離計算方式の提案と実装 昨年度提案した言語間距離を計算する基本方式を拡張し、BTECコーパス(ヨーロッパ系の9言語、すなわち、英、独、デンマーク、オランダ、仏、イタリア、スペイン、ポルトガル、ブラジルポルトガル語、アジア系の9言語、すなわち、日本、中国、韓国、ロシア、アラビア、インドネシア、マレー、タイ、ベトナム語)を使って実験した。 昨年度、言語間距離を2言語間の統計的な翻訳システムの翻訳品質で測定する方法を提案した。今年度は、これを拡張するために、以下の特徴を用いることを提案した。 ●ピボット言語を用いた時の翻訳品質 ●ピボット方式を変えた時の翻訳品質 ●構文利用した翻訳方式での翻訳品質 ●翻字の性能 ●フレーズテーブルの統計量 ●語順変更の統計量 ●語彙量 ●形態素のRICH性 ●文法(AGREEMENTの有無、類型) (B)BTECコーパスの拡張 言語ヴァリエーションを増やすため、仮想的な言語を生成するアルゴリズムの検討と2言語への翻訳を実施した。 ●BTECコーパスの英文をスワヒリ語とルーマニア語に翻訳することによって、ヴァリエーションを増やし、最終年度の検証に備えた。 ●コーパスについて、語彙的なあるいは文法的な操作を施して、擬似的に言語ヴァリエーションを増やす手法の検討を行った。 (C)多言語の翻訳システムの作成 本研究の副産物として、上記18言語の翻訳システムを構築し、ネットワーク経由で携帯電話とPCで公開した。
|
Research Products
(6 results)