2012 Fiscal Year Research-status Report
分岐ngramモデルによる短距離言語モデルから中距離言語モデルへの飛躍
Project/Area Number |
24650063
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
Project Period (FY) |
2012-04-01 – 2014-03-31
|
Keywords | 言語モデル / 依存構造 / 構文解析 / EMアルゴリズム |
Research Abstract |
平成24年度は計画通り、二種の基本アルゴリズムの開発を行った。一つ目は、分岐ngramモデルを用いて、ある入力文に対するすべての分岐構造との同時確率を周辺化することによって入力文の確率を計算するアルゴリズムである。これまで形式化されていなかったnが3以上の場合にも、Insideアルゴリズムの三角表をn次元に拡張することによって計算可能とする一般化されたアルゴリズムを開発した。 二つ目は、学習データから分岐ngramのモデル・パラメータを推定する手法である。推定速度は遅いが厳密な最尤推定を行う手法(「厳密推定手法」と呼ぶ)と、近似的ではあるが高速にパラメータ推定を行う手法(「近似推定手法」と呼ぶ)、合計2種類のアルゴリズムを開発した。厳密推定手法は、一つ目の方法とほぼ同じアイデア(Insideアルゴリズムの三角表をn次元に拡張)を用い、Inside-Outsideアルゴリズムとして知られているPCFG(Probabilistic Context Free Grammar)のパラメータ推定手法を、分岐ngramモデルのパラメータ推定手法に一般化したものである。近似推定手法は、既存の構文解析器の出力を正しい分岐構造とみなして学習する方法であり、高速でかつ従来のngramモデルの確率値スムージング手法を適用可能な方法である。 また、有効性の評価として、厳密推定手法で日本語、英語、ドイツ語、スペイン語の分岐ngramモデルを学習し、入力文の最尤な分岐構造を計算する実験を行った。実験結果より、構造情報をまったく与えていない学習にもかかわらず、各言語の特徴をよく捉えた構造に高い確率を与えることが分かり、分岐ngramモデルが構造情報を自動学習していることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成24年度は二種類3つのアルゴリズムを開発する計画であり、それを達成した。しかし、評価実験に関しては、予定していたtest-set perplexityによる評価は計算資源の制約のため完全には行えなかった。このため、平成25年度に予定していた厳密推定手法による教師なし構文解析応用評価を前倒しで実施し、分岐ngramモデルのモデル化能力について評価を行った。この点で、一部計画通りではないが、代替実験で補っているため、「おおむね順調に進展している」という評価とした。
|
Strategy for Future Research Activity |
平成24年度はおおむね順調に研究が進展したので、当初の計画通り平成25年度は分岐ngramモデルの二種類の応用研究を推進する。一つ目は統計的機械翻訳システムへの応用である。当研究室では主に階層フレーズに基づく統計的機械翻訳を研究中であるが、このシステムの言語モデルの部分を本研究で開発した中距離言語モデルに置換し、評価を行う。ただし、完全な周辺確率P(S)を用いると、計算量が大きすぎる可能性があるため、近似的な手法を開発予定である。具体的には、階層フレーズは翻訳中に文の構造を仮定するため、その文構造に沿ったP(S,D)で評価する予定である。本評価実験では、近似推定手法で構築したモデルを利用予定である。 二つ目は構文解析器への応用である。入力文Sが与えられた場合の文構造Dの推定問題を、P(D|S)のDについて最大化する問題と考え定式化する。この最大化問題は1年目に開発した基本アルゴリズム(周辺化によって入力文の確率を計算するアルゴリズム)の簡単な変形で構成可能である。従来の構文解析アルゴリズムにおいてよく利用されているような各依存関係を個別に評価する方法ではなく、文構造全体として最適な構造を選ぶことができるため、より信頼性のある構文解析結果を得ることができると考えている。平成24年度に前倒しで行った厳密推定手法による構文解析の評価も引き続き進める。余力があれば、厳密推定手法で推定したモデルを統計的機械翻訳システムへ組み込む手法も検討したい。
|
Expenditure Plans for the Next FY Research Funding |
理論的な実証評価のために膨大な実験を実施し、実験結果を整理する必要があるため、実験補助および実験結果を整理する人員を配置するために謝金として使用する。 また、最終年度であるため、国内外の会議に研究成果の発表を行うための旅費として主に使用する。 その他は、実験に必要な小型の計算機および消耗品として使用する計画である。
|