2009 Fiscal Year Annual Research Report
Project/Area Number |
20500149
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
山本 博史 National Institute of Information and Communications Technology, 知識創成コミュニケーション研究センター・言語翻訳グループ, 専攻研究員 (00395013)
|
Keywords | アライメント / 多言語化 / 半教師あり学習 / 固有名詞 / 確率付き制約 |
Research Abstract |
(1)20年度に用いた単言語タグの種類の拡張 20年度は英語および中国語のパラレルコーパスに対し各単語のタグ情報とアライメント情報を付加した。21年度は当初20年度の単語のタグ情報をより詳細なものに発展させる予定であったが、多言語化を先に行うこととした。その理由はタグ情報とアライメント情報は言語に強く依存するため英中2言語では、研究成果が言語対に依存するものかどうかが判断できないためである。そこで、今年度は英中に加え、日本語を加え3各国のタグ、およびアライメント情報付きのパラレルコーパスを整備することとした。 (2)昨年度の教師あり学習を半教師あり学習に拡張 上記の3各国パラレルコーパスおよび、タグ、アライメント情報なしのパラレルコーパスの両方を用い、半教師あり学習による単語アライメントを試みた。成果としては、日英中いずれの組み合わせにおいてもアライメント精度の向上が確認でき、半教師あり学習の有効性が確認できた。 (3)言語間タグを用いた固有名詞の翻訳 固有名詞等のアライメントに対し、言語ごとに意味情報等を用いてクラス化を行い、クラス情報を用いたアライメントを行った。この結果、固有名詞等の翻訳性能が向上し、有効性が確認できた。 (4)単語アライメントに対する構文木の利用 20年度は構文構造をアライメントの際の制約として用いたが、アライメントとして許されるかどうかの2値情報としてしか利用していなかった。今年度はこの制約を確率付きのものに拡張することにより、アライメント精度を向上させることができた。
|