2012 Fiscal Year Annual Research Report
解析アクションの先読みに基づく高速・高精度な自然言語文解析
Project/Area Number |
23700162
|
Research Institution | The University of Tokyo |
Principal Investigator |
鶴岡 慶雅 東京大学, 工学(系)研究科(研究院), 准教授 (50566362)
|
Keywords | 自然言語処理 / 機械学習 / 品詞タグ付け / 固有表現認識 / 構文解析 / 探索 / アルゴリズム / 評価関数 |
Research Abstract |
本研究課題では、基盤的な自然言語処理技術である、品詞タグ付け、固有表現認識、構文解析などの、構造予測問題と呼ばれるタスクに対する新しい機械学習アプローチの提案を行った。提案手法は、解析アクションの履歴に基づくアプローチをベースとし、それに先読み機構を統合することで、解析精度の大幅な向上を図っている。具体的には、品詞タグ付けタスクであれば個々の単語に対するタグ付けのアクションを、構文解析であれば、Shift や Reduce といった解析アクションを先読みすることで、現時点でのスコアではなく、将来的な有望さに基づいてアクションを選択することを可能にしている。 提案手法を実現するにあたって最も難しい問題は、状態を評価する関数のパラメータをどのようにして学習するかという問題であるが、本研究では、学習時においても、先読みによって計算されたアクションの最適パスを用いて評価関数の最適化を行うというアプローチをとることでこの問題を解決した。具体的な最適化のアルゴリズムとしては、平均化パーセプトロンに基づく手法を提案し、その収束性を理論的に明らかにした。 提案手法を、英語の品詞タグ付け、固有表現認識、係り受け解析タスクに適用した結果、このようなタスクに対して幅広く使われている「条件付確率場」を用いた手法よりも、解析精度、計算量の点で優れた性能を達成できることを示した。特に、品詞タグ付けと固有表現認識については、計算コスト同等の条件で比較した場合、世界最高レベルの精度を実現している。また、提案手法を、近年注目を集めている「最易優先方策」と組み合わせることで、さらなる精度向上が可能であることを示した。
|
Research Products
(1 results)