2014 年度実施状況報告書

Distributional学習に対するノンパラメトリックベイズの適用と応用

研究課題

研究課題/領域番号	26730123
研究機関	東京工科大学
研究代表者	柴田千尋東京工科大学, コンピュータサイエンス学部, 助教 (00633299)
研究期間 (年度)	2014-04-01 – 2018-03-31
キーワード	Distributional Learning / Nonparametric Bayes / Learning Theory / Grammar Learning
研究実績の概要	1. Distributional Learning のアルゴリズムの考え方をもとに、Hierarchical Pitman-Yor Processesと呼ばれる階層化ノンパラメトリックベイズのモデルを用い、 (k,l)-文脈依存確率を持ったCFGを定義した。また、それに対する高速なMCMC手法を提案した。リアルデータに対する実験結果としても、Brownコーパスという品詞タグ付きのデータを用いて、Modified Kneser-Neyと呼ばれる高精度なスムージングn-gramモデルと比較して、予測精度において、わずかにではあるが上回る結果を得ている。また、この成果について、国際会議(ICGI 2014)で発表を行った。Distributional Learning の応用という観点から考えて、正例（文の集合）のみからの学習において、PCFGに類似する確率モデルを用いて、このような高精度な結果を得ることができるという事実は新しい発見であると考えている。 2. また、様々なDistributional Property ( 具体的には、linear context-deterministic (c-det), linear 1-fcp, 1-kp ) をもつ、いくつかのPCFGのサブクラスについて、それらが生成する言語の確率分布に、μ-distinguishabilityに類似する条件をもうけることにより、PAC学習可能であることを示した( ジャーナルTCS(Special Issue of ALT 2013) に投稿し、採択済み) 。先行研究では、Distributional propertyをもつPCFGのサブクラス群のうち、Non-terminally separated (NTS)文法と呼ばれる文法においてのみ、学習可能であることが証明されていた(Clark, ICGI 2006)。上記論文において、同様の結果が他のDistributional PropertyをもつPCFGのサブクラス群でも成立することを証明した。本研究においては、確率言語の分布に対する様々な条件が、どのような機構で確率文法の学習の難しさ（これは計算量的な難しさに帰着される）を回避しているのかを探求することも考えている。したがって、上記の結果は、その基盤となる成果のひとつであるといえる。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由当初の計画では、初年度では、学習理論におけるdistributional 学習のアルゴリズムのアイデアに着想を得つつ、ノンパラメトリックベイズを用いた確率モデルを構築し、その理論の構築を重点的に行う予定であった。実際に、本年度では、理論的な構築という意味では当初想定していたものとは異なるものの、文脈依存な確率を持ったCFGに対して、階層化Pitman-Yor Processes を用いた階層化された事前分布を与えるという、確率モデル構築および、その上でのより効率的なサンプリングの手法の提案を行うことができた。しかし、それ以上に、それらを用いることにより、リアルデータ(Brownコーパス)に対する実験結果として、Modified Kneser-Neyと呼ばれる高精度なスムージングn-gramモデルと比較して、確率付きのCFGの推定により、予測精度において上回る結果を得ることができた。この事実は、当初は想定していなかった結果であり、その意義は計画以上のものと考えている。
今後の研究の推進方策	現状のアルゴリズムの問題点としては、効率的なサンプリング手法を提案したものの、それでもやはりまだまだ時間がかかる点がある。具体的には、Brown コーパス全体（文長16未満）に対して、プログラムを実行した場合、十分な精度を得ることができるまでに、シングルコアで1日以上かかる。並列処理、とくにGPGPUなどを用いることで、より高速に規模のより大きいデータに適用できないか考える予定である。また、様々なデータで、結果が本当に有用か検証する必要がある。また、現状では、(1,0)-context が (2,0)-context (ここで、(k,l)-contextの k, l はそれぞれ左文脈、右文脈の長さ) よりも精度が良く、文脈の利用という意味では、すこし文脈の長さが不足しているのではと考えている。たとえば、word2vecでは、単語のベクトルを求めるのに、おおよそ (5,5)-contextに相当する範囲の文脈を利用している。この点から確率モデルや学習のモデルとして、もっと文脈が利用できるような、よりよい定義がないか、幅広く考えたい。また、研究実績の概要において述べた、(2)の延長線上において、distributional 学習の確率学習における理論的な枠組みについても、継続して追究していく予定である。
次年度使用額が生じた理由	研究の遂行において十分な性能を持つ計算機が必要であったが、申請時の物品費では買えなかったため、旅費やその他経費を回して、より廉価であるが、ディスプレイと一体型で性能面では劣る計算機を購入した。この際、かわりに、予定していた2つの国際会議のうち１つのみにしか参加しなかった。それらの結果、該当額があまり、それを年内に何らかの形で使い切るよりも、来年の物品費と合わせ、よりよい実験環境を構築するほうが研究全体にとって有用と考えられたため、次年度使用とした。
次年度使用額の使用計画	次年度使用額は、次年度においては、効率のよい並列化アルゴリズムの実装と実験のための計算機を複数台購入する予定である。次年度の物品にかかる予算と合わせ、実験のために最適な構成となるよう計算機の構成を当初の予定より変更して、購入費にあてる予定である。ただし、計算機には多数のコモディティな部品を含むように構成する予定であるため、その費用は市場価格に強く左右されるため、最も効率のよい構成にした結果、さらに次々年度に繰り越したほうが有用と考えられる場合、そうする予定である。旅費の予算については国際会議に1つ以上参加する予定であるほか、研究協力者との打ち合わせや国内の学会発表のために使用する予定である。また、その他の経費については、主に英文校正などに使用する予定である。

研究成果
(7件)

すべて 2015 2014

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 1件、謝辞記載あり 1件) 学会発表 (5件)

[雑誌論文] Inferring (k,l)-context-sensitive probabilistic context-free grammars using hierarchical Pitman-Yor processes2014
- 著者名/発表者名
  Chihiro Shibata
- 雑誌名
  
  in JMLR: Workshop and Conference Proceedings ( Proceedings of the 12th ICGI)
  
  巻: 34 ページ: 153-166
- 査読あり / オープンアクセス / 謝辞記載あり
[雑誌論文] A comparison of collapsed Bayesian methods for probabilistic finite automata2014
- 著者名/発表者名
  Chihiro Shibata and Ryo Yoshinaka
- 雑誌名
  
  Machine Learning, Springer
  
  巻: 96(1) ページ: 155-188
- DOI
  10.1007/s10994-013-5410-3
- 査読あり
[学会発表] 文のテンプレートの学習および感情を考慮した会話文の生成2015
- 著者名/発表者名
  加藤和樹，柴田千尋，田胡和哉
- 学会等名
  情報処理学会第77回全国大会
- 発表場所
  京都大学(京都府京都市左京区)
- 年月日
  2015-03-17 – 2015-03-19
[学会発表] 単語ベクトルに基づく記録文書の概念検索2015
- 著者名/発表者名
  三澤虎遊汰，キン展，柴田千尋，田胡和哉
- 学会等名
  情報処理学会第77回全国大会
- 発表場所
  京都大学(京都府京都市左京区)
- 年月日
  2015-03-17 – 2015-03-19
[学会発表] 階層化Pitman-Yor過程を用いた文脈を考慮した確率文脈自由文法の推定-分布学習の実データへの適用にむけて2014
- 著者名/発表者名
  柴田千尋
- 学会等名
  第17回情報論的学習理論ワークショップ
- 発表場所
  名古屋大学(愛知県名古屋市千種区)
- 年月日
  2014-11-16 – 2014-11-19
[学会発表] Inferring (k,l)-context-sensitive probabilistic context-free grammars using hierarchical Pitman-Yor processes2014
- 著者名/発表者名
  Chihiro Shibata
- 学会等名
  The 12th International Conference on Grammatical Inference
- 発表場所
  京都大学(京都府京都市左京区)
- 年月日
  2014-09-17 – 2014-09-19
[学会発表] 連想概念辞書および Wikipedia のデータを用いた部分・材料概念の抽出2014
- 著者名/発表者名
  キン展，柴田千尋
- 学会等名
  2014年度人工知能学会全国大会
- 発表場所
  愛媛県県民文化会館(愛媛県松山市道後町)
- 年月日
  2014-05-12 – 2014-05-15

2014 年度 実施状況報告書

Distributional学習に対するノンパラメトリックベイズの適用と応用

研究代表者

柴田 千尋 東京工科大学, コンピュータサイエンス学部, 助教 (00633299)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Inferring (k,l)-context-sensitive probabilistic context-free grammars using hierarchical Pitman-Yor processes2014

著者名/発表者名

雑誌名

[雑誌論文] A comparison of collapsed Bayesian methods for probabilistic finite automata2014

著者名/発表者名

雑誌名

DOI

[学会発表] 文のテンプレートの学習および感情を考慮した会話文の生成2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 単語ベクトルに基づく記録文書の概念検索2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 階層化Pitman-Yor過程を用いた文脈を考慮した確率文脈自由文法の推定-分布学習の実データへの適用にむけて2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Inferring (k,l)-context-sensitive probabilistic context-free grammars using hierarchical Pitman-Yor processes2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 連想概念辞書および Wikipedia のデータ を用いた部分・材料概念の抽出2014

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実施状況報告書

柴田千尋東京工科大学, コンピュータサイエンス学部, 助教 (00633299)

[学会発表] 連想概念辞書および Wikipedia のデータを用いた部分・材料概念の抽出2014