研究概要 |
本年度は,(1)分散計算環境を活用した高次元素性に基づく識別モデル学習法の開発(塚田,渡辺),および,(2)分散計算環境を活用した半教師あり学習に基づく言語情報解析法の開発(磯崎,鈴木,藤野,須藤)の二つの課題に取り組んだ。 研究課題(1)は,従来の手法と比較して桁違いの高次元素性を活用することで,翻訳精度を向上させることを目指している。統計モデルの学習に必要な計算量は従来の数倍にもなるが,本科研費の助成のもとに構築された分散計算機環境を活用することで,評価実験が可能となった。NTTの研究費によって開発された高次元素性に基づく翻訳手法を国際的な評価型ワークショップIWSLT 2007(International Workshop on Spoken Language Translation)のタスクで評価した。その結果,テスト条件にマッチした開発セットを利用することで,世界トップレベルの翻訳精度が得られることを確認した。 研究課題(2)は,高次元素性の一つとして利用可能な言語情報を高精度に解析することを目指している。言語情報解析器を統計的な手法で構築するためには,言語情報のラベルが付与された学習データが必要である。一般に,このような学習データの構築は困難であり量は限られている。そこで,膨大なWebデータなどのラベルなし学習データを併用する半教師あり学習の手法について研究を進めている。本年度は,NTTの研究費で開発された半教師あり学習法を,分散計算環境を利用して大規模なラベルなしデータを利用した場合に,どれくらいの精度向上が得られるかを明らかにした。その結果,ラベルなしデータを増やせば増やすほど性能が向上し,10億語のラベルなしデータを用いた時点で,国際的なベンチマークテストにおけるトップスコアを達成することができた。
|