2014 Fiscal Year Research-status Report
Distributional学習に対するノンパラメトリックベイズの適用と応用
Project/Area Number |
26730123
|
Research Institution | Tokyo University of Technology |
Principal Investigator |
柴田 千尋 東京工科大学, コンピュータサイエンス学部, 助教 (00633299)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | Distributional Learning / Nonparametric Bayes / Learning Theory / Grammar Learning |
Outline of Annual Research Achievements |
1. Distributional Learning のアルゴリズムの考え方をもとに、Hierarchical Pitman-Yor Processesと呼ばれる階層化ノンパラメトリックベイズのモデルを用い、 (k,l)-文脈依存確率を持ったCFGを定義した。また、それに対する高速なMCMC手法を提案した。リアルデータに対する実験結果としても、Brownコーパスという品詞タグ付きのデータを用いて、Modified Kneser-Neyと呼ばれる高精度なスムージングn-gramモデルと比較して、予測精度において、わずかにではあるが上回る結果を得ている。また、この成果について、国際会議(ICGI 2014)で発表を行った。Distributional Learning の応用という観点から考えて、正例(文の集合)のみからの学習において、PCFGに類似する確率モデルを用いて、このような高精度な結果を得ることができるという事実は新しい発見であると考えている。 2. また、様々なDistributional Property ( 具体的には、linear context-deterministic (c-det), linear 1-fcp, 1-kp ) をもつ、いくつかのPCFGのサブクラスについて、それらが生成する言語の確率分布に、μ-distinguishabilityに類似する条件をもうけることにより、PAC学習可能であることを示した( ジャーナルTCS(Special Issue of ALT 2013) に投稿し、採択済み) 。先行研究では、Distributional propertyをもつPCFGのサブクラス群のうち、Non-terminally separated (NTS)文法と呼ばれる文法においてのみ、学習可能であることが証明されていた(Clark, ICGI 2006)。上記論文において、同様の結果が他のDistributional PropertyをもつPCFGのサブクラス群でも成立することを証明した。本研究においては、確率言語の分布に対する様々な条件が、どのような機構で確率文法の学習の難しさ(これは計算量的な難しさに帰着される)を回避しているのかを探求することも考えている。したがって、上記の結果は、その基盤となる成果のひとつであるといえる。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の計画では、初年度では、学習理論におけるdistributional 学習のアルゴリズムのアイデアに着想を得つつ、ノンパラメトリックベイズを用いた確率モデルを構築し、その理論の構築を重点的に行う予定であった。実際に、本年度では、理論的な構築という意味では当初想定していたものとは異なるものの、文脈依存な確率を持ったCFGに対して、階層化Pitman-Yor Processes を用いた階層化された事前分布を与えるという、確率モデル構築および、その上でのより効率的なサンプリングの手法の提案を行うことができた。 しかし、それ以上に、それらを用いることにより、リアルデータ(Brownコーパス)に対する実験結果として、Modified Kneser-Neyと呼ばれる高精度なスムージングn-gramモデルと比較して、確率付きのCFGの推定により、予測精度において上回る結果を得ることができた。この事実は、当初は想定していなかった結果であり、その意義は計画以上のものと考えている。
|
Strategy for Future Research Activity |
現状のアルゴリズムの問題点としては、効率的なサンプリング手法を提案したものの、それでもやはりまだまだ時間がかかる点がある。具体的には、Brown コーパス全体(文長16未満)に対して、プログラムを実行した場合、十分な精度を得ることができるまでに、シングルコアで1日以上かかる。並列処理、とくにGPGPUなどを用いることで、より高速に規模のより大きいデータに適用できないか考える予定である。また、様々なデータで、結果が本当に有用か検証する必要がある。また、現状では、(1,0)-context が (2,0)-context (ここで、(k,l)-contextの k, l はそれぞれ左文脈、右文脈の長さ) よりも精度が良く、文脈の利用という意味では、すこし文脈の長さが不足しているのではと考えている。たとえば、word2vecでは、単語のベクトルを求めるのに、おおよそ (5,5)-contextに相当する範囲の文脈を利用している。この点から確率モデルや学習のモデルとして、もっと文脈が利用できるような、よりよい定義がないか、幅広く考えたい。 また、研究実績の概要において述べた、(2)の延長線上において、distributional 学習の確率学習における理論的な枠組みについても、継続して追究していく予定である。
|
Causes of Carryover |
研究の遂行において十分な性能を持つ計算機が必要であったが、申請時の物品費では買えなかったため、旅費やその他経費を回して、より廉価であるが、ディスプレイと一体型で性能面では劣る計算機を購入した。この際、かわりに、予定していた2つの国際会議のうち1つのみにしか参加しなかった。それらの結果、該当額があまり、それを年内に何らかの形で使い切るよりも、来年の物品費と合わせ、よりよい実験環境を構築するほうが研究全体にとって有用と考えられたため、次年度使用とした。
|
Expenditure Plan for Carryover Budget |
次年度使用額は、次年度においては、効率のよい並列化アルゴリズムの実装と実験のための計算機を複数台購入する予定である。次年度の物品にかかる予算と合わせ、実験のために最適な構成となるよう計算機の構成を当初の予定より変更して、購入費にあてる予定である。ただし、計算機には多数のコモディティな部品を含むように構成する予定であるため、その費用は市場価格に強く左右されるため、最も効率のよい構成にした結果、さらに次々年度に繰り越したほうが有用と考えられる場合、そうする予定である。旅費の予算については国際会議に1つ以上参加する予定であるほか、研究協力者との打ち合わせや国内の学会発表のために使用する予定である。また、その他の経費については、主に英文校正などに使用する予定である。
|
Research Products
(7 results)