2018 年度実績報告書

Distributional学習に対するノンパラメトリックベイズの適用と応用

研究課題

研究課題/領域番号	26730123
研究機関	東京工科大学
研究代表者	柴田千尋東京工科大学, コンピュータサイエンス学部, 講師 (00633299)
研究期間 (年度)	2014-04-01 – 2019-03-31
キーワード	機械学習 / 統計的学習 / ベイズ学習 / 教師なし学習 / 構文解析
研究実績の概要	Distributional Learning のアルゴリズムの考え方をもとに，階層化ノンパラメトリックベイズのモデルを用い， (k,l)-文脈依存確率を持ったCFGを定義した．また，リアルデータに対する実験結果としても，Modified Kneser-Ney n-gramモデルと比較して，上回る結果を得た．Distributional な文脈から構文を学習する際に，ノンパラメトリックベイズの階層をよりフレキシブルにするため，右文脈と左文脈に分け，それぞれがどのように取り除かれていくかを考察しその有効なサンプリングの手法を提案している．実際には、最左導出の際は、右文脈を考慮すると、計算量が右文脈の長さに対して指数的に増えるため，右文脈を考慮することは現実的ではない．そこで，構文木の導出の順序および階層のつけ方自体を考え直すことで，左右どちらの文脈も，現実的な計算量で考慮できるようなベイズ的な確率過程を構築した．実際の実装では，サンプリング法は高速に行うことが必要である．ノンパラメトリックベイズ推定で用いられるサンプリングは，ベクトル演算として効率よく実装することは難しいため，深層学習など他の機械学習の手法でよく用いられるようなpythonのベクトル演算用のライブラリを用いることは難しい．そこで，cython などによる中間的な言語を部分的に用いることにより，実装を軽量化する方法を考案している．最終的な成果として，教師なし構文解析の高精度化のためのアルゴリズムを提案することにより，一定の貢献を行うことができたと考えられる．

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 構文情報を陽に与えたときの LSTM-RNN による内部表現について2018
- 著者名/発表者名
  岡本(柴田) 千尋，内海慶，持橋大地
- 学会等名
  第237回自然言語処理研究会