2011 Fiscal Year Research-status Report
解析アクションの先読みに基づく高速・高精度な自然言語文解析
Project/Area Number |
23700162
|
Research Institution | The University of Tokyo |
Principal Investigator |
鶴岡 慶雅 東京大学, 工学(系)研究科(研究院), 准教授 (50566362)
|
Project Period (FY) |
2011-04-28 – 2013-03-31
|
Keywords | 自然言語処理 / 機械学習 / アルゴリズム / 品詞タグ付け / 固有表現認識 / チャンキング / 係り受け解析 |
Research Abstract |
本研究の目的は、品詞タグ付けや固有表現認識、構文解析といった基盤的な自然言語処理タスクの速度・精度を向上させることである。この目的を達成するため、初年度は、解析アクションの履歴に基づく汎用的な自然言語処理解析アルゴリズムを開発し、その有効性を各種の自然言語処理タスクによって検証した。 提案手法の特長は、解析アクションの先読み機構を学習モデルに統合することで、現時点の見た目の評価値ではなく、将来的に最もよい解析結果が得られると期待されるアクションを選択することが可能になっている点にある。提案手法を実現するにあたっての難しい問題は、状態を評価する関数のパラメータをどのようにして学習するかという問題である。なぜなら、学習コーパスには先読みにおける最適パスの情報は含まれていないため、直接的に最尤推定のような基準でパラメータの最適化を行うことができないからである。そこで本研究では、学習時においては、現時点でのモデルパラメータを用いて予測される最適パスを用いて状態評価関数の最適化を行うというアプローチをとった。モデルパラメータの更新規則としては、平均化パーセプトロンをベースとした学習アルゴリズムを利用した。 提案手法の有効性を評価するため、複数の自然言語処理タスクに関して標準的なベンチマークデータセットを利用して実験を行い、提案アルゴリズムが、収束性、解析精度の点で、代表的な従来手法である条件付き確率場や構造化パーセプトロンと同等あるいは優れた性能を示すことを明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度の研究により、本プロジェクトの基盤となるアルゴリズムの有効性が明らかになった。具体的には、英語の品詞タグ付け、チャンキング、固有表現認識に関して、従来手法である条件付き確率場と比較して、優れた解析精度を同等以下の計算コストで達成できることを示した。特に、英語の品詞タグ付けと固有用言認識に関しては、教師付き機械学習での世界最高レベルの精度を小さな計算コストで達成しており、そのまま言語処理ツールとして実用に供することも可能になっている。 また、より複雑な自然言語処理タスクである英語の係り受け解析に関しては、Shift-Reduce アルゴリズムを本提案手法によって拡張し、先読みのプロセスを導入することで解析の精度が向上することを示した。Shift-Reduce アルゴリズムを用いる場合、通常、パージングの各状態において、Shift するかReduce するかを決定する分類問題として定式化されるが、提案手法では、これに先読み機構を導入し、Shift/Reduce アクションがn 回行われた未来の状態をもとに現時点での最適なアクションを決定する。これによって、将来的に構築される部分構造の良さを考慮した予測が可能になっている。Penn Treebankを用いてアルゴリズムの評価実験を行った結果、提案手法は代表的な従来手法である構造化パーセプトロンと同等の精度を達成できることが明らかになった。
|
Strategy for Future Research Activity |
今後は、初年度に開発された先読みに基づく構造予測のアルゴリズムの改良および応用の拡大を進める。提案手法では、先読みの深さと解析精度が深く関係する。基本的には、先読みの深さを深くすればするほど、導入可能な素性の非局所性が高まり、さらに、解析の不整合を早期に発見できるようになるため、解析の精度は向上すると期待される。しかし一方では、先読みに必要な計算コストは、基本的に先読みの深さに対して指数的に増えていくため、現実的に可能な先読みの深さは限られている。したがって、より深い先読みを現実的な計算コストで可能にするためには、探索効率化のためのさまざまな枝狩り手法を併用することが必要であり、今後の重要な研究課題のひとつといえる。 初年度の評価実験では、学習時に利用する素性(特徴量)は、基本的には既存手法で用いられている一般的なものをそのまま利用した。しかし、提案アルゴリズムの特長は、履歴に依存する任意の素性を学習モデルに組み込むことができる点にある。今後は、その特長を活かすべく、さまざまな素性を追加することで解析精度がどこまで向上するのかを検証する。 また、初年度では、提案手法を、英語の品詞タグ付け、チャンキング、固有表現認識、係り受け解析の4つの自然言語処理タスクに適用し、その性能を検証したが、今後は、英語以外や他の自然言語処理タスクに提案手法を適用して、その性能を検証する。
|
Expenditure Plans for the Next FY Research Funding |
次年度の研究費は、物品費として900,000円、旅費として700,000円、合計160,000円の使用を計画している。具体的には、自然言語処理および機械学習アルゴリズムの開発のための高性能計算サーバー(Xeon X5690 x 2, Memory 48GB)の購入、研究動向の調査および成果発表のための国内・国外旅費の使用を予定している。
|