2007 Fiscal Year Annual Research Report
多言語対訳コーパスを用いた言語間距離の計算とその応用
Project/Area Number |
19500137
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
隅田 英一郎 National Institute of Information and Communications Technology, 第二研究部門知識創威コミユニケーション研究センター・音声言語グループ, 専門研究員 (90395020)
|
Co-Investigator(Kenkyū-buntansha) |
山本 博史 独立行政法人情報通信研究機構, 第二研究部門知識創成コミユニケーション研究センター音声言語グルーガ, 専門研究員 (00395013)
|
Keywords | 自然言語処理 |
Research Abstract |
(A)距離計算の基本方式言語間の距離は語彙と文法(語順や活用)の相違に基づいて考えることができる。例えば、極めて類似した言語スペイン語とイタリア語では、語彙はもともとラテン語に由来し、語源を同じにする語が多く、また、文字列的類似性も高い。文法も、主語S、目的語O、動詞Vの語順はSVOの順であり、前置詞を用い、修飾は後方からかかる。性数にかかわる活用変化があり、格変化はない。このように非常に良く似ている。一方、英語と日本語では、SVOとSOVと異なり、前置詞と後置詞と異なる。数による変化は英語で必須だが、日本語ではほとんど現れない。カタカナ語を除いて語彙の重なりはほとんどない。一方、中国語と日本語では、SVOとSOVと異なるが、漢語を共有するため語彙の重なりは大きい。本研究は計算可能な距離を提案し対訳データATR-BTECを使って様々な検討を行うことを目的としている。19年度は既存のATR-BTECコーパス(18言語)を使って翻訳システムを構築し、その翻訳性能に基づく言語間距離を検討した。この距離において、日本語と韓国語の距離が、ポルトガル語とその方言であるブラジル・ポルトガル語との距離より小さいという興味深い実験結果が得られた。 (B)ATR-BTECの拡張同時にATR-BTECの英語部分を素にして、新たな言語への翻訳をATR-BTECに追加する。追加する言語は既存のATR-BTECに含まれる言語と大きく特性(語順・活用など)の異なる言語を撰択することとし、トルコ語、ギリシャ語を対象に実施した。
|