2015 年度実施状況報告書

Distributional学習に対するノンパラメトリックベイズの適用と応用

研究課題

研究課題/領域番号	26730123
研究機関	東京工科大学
研究代表者	柴田千尋東京工科大学, コンピュータサイエンス学部, 助教 (00633299)
研究期間 (年度)	2014-04-01 – 2018-03-31
キーワード	Distributional Learning / Nonparametric Bayes / Learning Theory / Grammar Learning
研究実績の概要	本研究において、並列化の基礎となる計算機の構成を行った。また、Nonparametric Bayesの手法には含まれないが、本研究における大きな目標であるDistributional Learningの実データへの効率的な利用にむけて、近年大きなインパクトを与えている深層学習のアルゴリズムと、形式文法の確率学習とのつながりを、Strictly Piecewise 言語の共導出に焦点をあてて、次のような観点から明らかにした。 Strictly Piecewise 言語とは、近年 Rogers と Heinz により導入された、複数の単純なオートマトンの積(共導出)に分解できる言語クラスで、記号列の中の長距離の依存関係を簡潔に記述することができる言語である。 n-gram における文字(または単語)の生成確率は直前の長さn の連続的な部分文字列に依存して与えられるが、確率的 SP-k 言語で定義される文字(または単語)の生成確率は、前に出てくる長さ k 個の不連続な部分文字列の全ての組み合わせに依存して与えられる。共導出に対する確率を考えると、例えば、様々な実際の言語に出てくる、音素の長距離の依存関係をうまく捉えることができることが知られている。例えば、ある自然言語では、文中において、sibilantに関する禁止ルールがあることが知られているが、それらを教師なしで学習することが可能である。しかし、複数の確率的オートマトンの積(共導出)という仕組みで生成確率が計算されるため、正確な最尤推定がまだ行われていなかったが、それを行う方法を新たに見いだした。また、ニューラルネット言語モデルとして見たとき、その階層を深くすることによって精度が良くなることを発見した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由本年度の予定は、並列化の検討であったが、計算機およびソフトウェア環境は整えたものの、HPYPを用いたノンパラメトリックベイズの手法では一般的に、確率の計算においてハッシュやtrieを用いるため、GPGPUで並列化するために必要なベクトル演算の形に落とすことが難しく、実際にノンパラメトリックベイズの手法を効率的に並列化するアルゴリズムを考案することはまだできていない。また、形式言語(Strictly Piecewise 言語 )の学習において、ディープラーニングの手法と対応づけてそれを利用する方法についても、外部の研究会において提案は行っているものの、まだ論文の形にまとめていないため、まだ査読のある国際会議や論文誌での発表までに及んでいない。これについては来年度行う予定である。
今後の研究の推進方策	(k,l)-文脈依存確率文法の学習については、スライスサンプリングを導入し、より高速に計算する手法を考案し、実装を行う予定である。また、その並列化を行い、より規模の大きいデータに適用することを考えている。また、サンプリングの手法として、adaptive importance sampling という手法がある。これは、MHサンプリングのように、一定の確率で棄却することはせず、提案分布と実際の分布との比率に基づき重みを付けてサンプリングを行う。また、適応的に提案分布を変更していくことで、より有効なサンプルを得ることができるようにするものである。また、形式言語の学習に対する、深層学習の手法との関係の探究も、引き続き行ってゆく予定である。
次年度使用額が生じた理由	並列計算のための計算機環境の構築が遅れており、その予算を次年度繰越とした。また、研究成果の外部発表が滞ったため、国際会議での発表が想定よりも少なく、そのための費用がかからなかったため。
次年度使用額の使用計画	当初より予定している並列計算のための計算機およびソフトウェア環境の増強にかかる費用を、「物品費」より予定している。および、研究成果の国際会議への発表にかかる費用を、「旅費」および「その他」より予定している。またLDAPやNFSの構築など、ソフトウェア環境の構築においてかかる作業代として、人件費よりの支出を予定している。

研究成果
(7件)

すべて 2016 2015

すべて雑誌論文 (3件) (うち査読あり 3件、謝辞記載あり 2件) 学会発表 (4件) (うち国際学会 2件)

[雑誌論文] Probabilistic learnability of context-free grammars with basic distributional properties from positive examples2016
- 著者名/発表者名
  Chihiro Shibata and Ryo Yoshinaka
- 雑誌名
  
  Theoretical computer science, Elsevier
  
  巻: 620 ページ: 46-72
- 査読あり / 謝辞記載あり
[雑誌論文] On Efficiency of Semantic Relation Extraction through Low-Dimensional Distributed Representations for Substrings2015
- 著者名/発表者名
  Jin Zhan, Chihiro Shibata, Kazuya Tago
- 雑誌名
  
  in proceedings of the 2015 IEEE International Symposium on Smart Data (with the 17th IEEE International Conference on High Performance Computing and Communications)
  
  巻: 0 ページ: 1749-1754
- 査読あり / 謝辞記載あり
[雑誌論文] Relation Classification through Substring Representations using Nonlinear Classifiers2015
- 著者名/発表者名
  Zhan Jin, Chihiro Shibata, Jingtao Sun and Kazuya Tago
- 雑誌名
  
  In proceedings of the 2015 International Symposium on Nonlinear Theory & its Applications
  
  巻: 0 ページ: 1-8
- 査読あり
[学会発表] ニューラルネット言語モデルによる Twitter 上の発言からの5因子モデルに基づく性格分析2016
- 著者名/発表者名
  塚野駿，柴田千尋，政倉祐子，田胡和哉
- 学会等名
  情報処理学会第78回全国大会
- 発表場所
  慶応義塾大学矢上キャンパス(神奈川県横浜市)
- 年月日
  2016-03-10 – 2016-03-12
[学会発表] 深層強化学習ための環境シミュレーションと自律制御ロボットの連携2016
- 著者名/発表者名
  宮島優太郎，李天琦，田胡和哉，柴田千尋
- 学会等名
  情報処理学会第78回全国大会
- 発表場所
  慶応義塾大学矢上キャンパス(神奈川県横浜市)
- 年月日
  2016-03-10 – 2016-03-12
[学会発表] Relation Classification through Substring Representations using Nonlinear Classifiers2015
- 著者名/発表者名
  Zhan Jin, Chihiro Shibata, Jingtao Sun and Kazuya Tago
- 学会等名
  2015 International Symposium on Nonlinear Theory & its Applications
- 発表場所
  香港市立大学(中国・香港)
- 年月日
  2015-12-02 – 2015-12-04
- 国際学会
[学会発表] On Efficiency of Semantic Relation Extraction through Low-Dimensional Distributed Representations for Substrings2015
- 著者名/発表者名
  Jin Zhan, Chihiro Shibata, Kazuya Tago
- 学会等名
  IEEE International Symposium on Smart Data in conjunction with the 17th IEEE International Conference on High Performance Computing and Communications
- 発表場所
  Hilton Newark Airport (USA, New York)
- 年月日
  2015-08-24 – 2015-08-26
- 国際学会

2015 年度 実施状況報告書

Distributional学習に対するノンパラメトリックベイズの適用と応用

研究代表者

柴田 千尋 東京工科大学, コンピュータサイエンス学部, 助教 (00633299)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Probabilistic learnability of context-free grammars with basic distributional properties from positive examples2016

著者名/発表者名

雑誌名

[雑誌論文] On Efficiency of Semantic Relation Extraction through Low-Dimensional Distributed Representations for Substrings2015

著者名/発表者名

雑誌名

[雑誌論文] Relation Classification through Substring Representations using Nonlinear Classifiers2015

著者名/発表者名

雑誌名

[学会発表] ニューラルネット言語モデルによる Twitter 上の発言からの5因子モデルに基づく性格分析2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 深層強化学習ための環境シミュレーションと自律制御ロボットの連携2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Relation Classification through Substring Representations using Nonlinear Classifiers2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] On Efficiency of Semantic Relation Extraction through Low-Dimensional Distributed Representations for Substrings2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実施状況報告書

柴田千尋東京工科大学, コンピュータサイエンス学部, 助教 (00633299)