2014 Fiscal Year Research-status Report

Distributional学習に対するノンパラメトリックベイズの適用と応用

Research Project

Project/Area Number	26730123
Research Institution	Tokyo University of Technology
Principal Investigator	柴田千尋東京工科大学, コンピュータサイエンス学部, 助教 (00633299)
Project Period (FY)	2014-04-01 – 2018-03-31
Keywords	Distributional Learning / Nonparametric Bayes / Learning Theory / Grammar Learning
Outline of Annual Research Achievements	1. Distributional Learning のアルゴリズムの考え方をもとに、Hierarchical Pitman-Yor Processesと呼ばれる階層化ノンパラメトリックベイズのモデルを用い、 (k,l)-文脈依存確率を持ったCFGを定義した。また、それに対する高速なMCMC手法を提案した。リアルデータに対する実験結果としても、Brownコーパスという品詞タグ付きのデータを用いて、Modified Kneser-Neyと呼ばれる高精度なスムージングn-gramモデルと比較して、予測精度において、わずかにではあるが上回る結果を得ている。また、この成果について、国際会議(ICGI 2014)で発表を行った。Distributional Learning の応用という観点から考えて、正例（文の集合）のみからの学習において、PCFGに類似する確率モデルを用いて、このような高精度な結果を得ることができるという事実は新しい発見であると考えている。 2. また、様々なDistributional Property ( 具体的には、linear context-deterministic (c-det), linear 1-fcp, 1-kp ) をもつ、いくつかのPCFGのサブクラスについて、それらが生成する言語の確率分布に、μ-distinguishabilityに類似する条件をもうけることにより、PAC学習可能であることを示した( ジャーナルTCS(Special Issue of ALT 2013) に投稿し、採択済み) 。先行研究では、Distributional propertyをもつPCFGのサブクラス群のうち、Non-terminally separated (NTS)文法と呼ばれる文法においてのみ、学習可能であることが証明されていた(Clark, ICGI 2006)。上記論文において、同様の結果が他のDistributional PropertyをもつPCFGのサブクラス群でも成立することを証明した。本研究においては、確率言語の分布に対する様々な条件が、どのような機構で確率文法の学習の難しさ（これは計算量的な難しさに帰着される）を回避しているのかを探求することも考えている。したがって、上記の結果は、その基盤となる成果のひとつであるといえる。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 当初の計画では、初年度では、学習理論におけるdistributional 学習のアルゴリズムのアイデアに着想を得つつ、ノンパラメトリックベイズを用いた確率モデルを構築し、その理論の構築を重点的に行う予定であった。実際に、本年度では、理論的な構築という意味では当初想定していたものとは異なるものの、文脈依存な確率を持ったCFGに対して、階層化Pitman-Yor Processes を用いた階層化された事前分布を与えるという、確率モデル構築および、その上でのより効率的なサンプリングの手法の提案を行うことができた。しかし、それ以上に、それらを用いることにより、リアルデータ(Brownコーパス)に対する実験結果として、Modified Kneser-Neyと呼ばれる高精度なスムージングn-gramモデルと比較して、確率付きのCFGの推定により、予測精度において上回る結果を得ることができた。この事実は、当初は想定していなかった結果であり、その意義は計画以上のものと考えている。
Strategy for Future Research Activity	現状のアルゴリズムの問題点としては、効率的なサンプリング手法を提案したものの、それでもやはりまだまだ時間がかかる点がある。具体的には、Brown コーパス全体（文長16未満）に対して、プログラムを実行した場合、十分な精度を得ることができるまでに、シングルコアで1日以上かかる。並列処理、とくにGPGPUなどを用いることで、より高速に規模のより大きいデータに適用できないか考える予定である。また、様々なデータで、結果が本当に有用か検証する必要がある。また、現状では、(1,0)-context が (2,0)-context (ここで、(k,l)-contextの k, l はそれぞれ左文脈、右文脈の長さ) よりも精度が良く、文脈の利用という意味では、すこし文脈の長さが不足しているのではと考えている。たとえば、word2vecでは、単語のベクトルを求めるのに、おおよそ (5,5)-contextに相当する範囲の文脈を利用している。この点から確率モデルや学習のモデルとして、もっと文脈が利用できるような、よりよい定義がないか、幅広く考えたい。また、研究実績の概要において述べた、(2)の延長線上において、distributional 学習の確率学習における理論的な枠組みについても、継続して追究していく予定である。
Causes of Carryover	研究の遂行において十分な性能を持つ計算機が必要であったが、申請時の物品費では買えなかったため、旅費やその他経費を回して、より廉価であるが、ディスプレイと一体型で性能面では劣る計算機を購入した。この際、かわりに、予定していた2つの国際会議のうち１つのみにしか参加しなかった。それらの結果、該当額があまり、それを年内に何らかの形で使い切るよりも、来年の物品費と合わせ、よりよい実験環境を構築するほうが研究全体にとって有用と考えられたため、次年度使用とした。
Expenditure Plan for Carryover Budget	次年度使用額は、次年度においては、効率のよい並列化アルゴリズムの実装と実験のための計算機を複数台購入する予定である。次年度の物品にかかる予算と合わせ、実験のために最適な構成となるよう計算機の構成を当初の予定より変更して、購入費にあてる予定である。ただし、計算機には多数のコモディティな部品を含むように構成する予定であるため、その費用は市場価格に強く左右されるため、最も効率のよい構成にした結果、さらに次々年度に繰り越したほうが有用と考えられる場合、そうする予定である。旅費の予算については国際会議に1つ以上参加する予定であるほか、研究協力者との打ち合わせや国内の学会発表のために使用する予定である。また、その他の経費については、主に英文校正などに使用する予定である。

Research Products
(7 results)

All 2015 2014

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results, Acknowledgement Compliant: 1 results) Presentation (5 results)

[Journal Article] Inferring (k,l)-context-sensitive probabilistic context-free grammars using hierarchical Pitman-Yor processes2014
- Author(s)
  Chihiro Shibata
- Journal Title
  
  in JMLR: Workshop and Conference Proceedings ( Proceedings of the 12th ICGI)
  
  Volume: 34 Pages: 153-166
- Peer Reviewed / Open Access / Acknowledgement Compliant
[Journal Article] A comparison of collapsed Bayesian methods for probabilistic finite automata2014
- Author(s)
  Chihiro Shibata and Ryo Yoshinaka
- Journal Title
  
  Machine Learning, Springer
  
  Volume: 96(1) Pages: 155-188
- DOI
  10.1007/s10994-013-5410-3
- Peer Reviewed
[Presentation] 文のテンプレートの学習および感情を考慮した会話文の生成2015
- Author(s)
  加藤和樹，柴田千尋，田胡和哉
- Organizer
  情報処理学会第77回全国大会
- Place of Presentation
  京都大学(京都府京都市左京区)
- Year and Date
  2015-03-17 – 2015-03-19
[Presentation] 単語ベクトルに基づく記録文書の概念検索2015
- Author(s)
  三澤虎遊汰，キン展，柴田千尋，田胡和哉
- Organizer
  情報処理学会第77回全国大会
- Place of Presentation
  京都大学(京都府京都市左京区)
- Year and Date
  2015-03-17 – 2015-03-19
[Presentation] 階層化Pitman-Yor過程を用いた文脈を考慮した確率文脈自由文法の推定-分布学習の実データへの適用にむけて2014
- Author(s)
  柴田千尋
- Organizer
  第17回情報論的学習理論ワークショップ
- Place of Presentation
  名古屋大学(愛知県名古屋市千種区)
- Year and Date
  2014-11-16 – 2014-11-19
[Presentation] Inferring (k,l)-context-sensitive probabilistic context-free grammars using hierarchical Pitman-Yor processes2014
- Author(s)
  Chihiro Shibata
- Organizer
  The 12th International Conference on Grammatical Inference
- Place of Presentation
  京都大学(京都府京都市左京区)
- Year and Date
  2014-09-17 – 2014-09-19
[Presentation] 連想概念辞書および Wikipedia のデータを用いた部分・材料概念の抽出2014
- Author(s)
  キン展，柴田千尋
- Organizer
  2014年度人工知能学会全国大会
- Place of Presentation
  愛媛県県民文化会館(愛媛県松山市道後町)
- Year and Date
  2014-05-12 – 2014-05-15

2014 Fiscal Year Research-status Report

Distributional学習に対するノンパラメトリックベイズの適用と応用

Principal Investigator

柴田 千尋 東京工科大学, コンピュータサイエンス学部, 助教 (00633299)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Inferring (k,l)-context-sensitive probabilistic context-free grammars using hierarchical Pitman-Yor processes2014

Author(s)

Journal Title

[Journal Article] A comparison of collapsed Bayesian methods for probabilistic finite automata2014

Author(s)

Journal Title

DOI

[Presentation] 文のテンプレートの学習および感情を考慮した会話文の生成2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 単語ベクトルに基づく記録文書の概念検索2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 階層化Pitman-Yor過程を用いた文脈を考慮した確率文脈自由文法の推定-分布学習の実データへの適用にむけて2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Inferring (k,l)-context-sensitive probabilistic context-free grammars using hierarchical Pitman-Yor processes2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 連想概念辞書および Wikipedia のデータ を用いた部分・材料概念の抽出2014

Author(s)

Organizer

Place of Presentation

Year and Date

柴田千尋東京工科大学, コンピュータサイエンス学部, 助教 (00633299)

[Presentation] 連想概念辞書および Wikipedia のデータを用いた部分・材料概念の抽出2014