研究課題/領域番号 |
26730123
|
研究機関 | 東京工科大学 |
研究代表者 |
柴田 千尋 東京工科大学, コンピュータサイエンス学部, 助教 (00633299)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | Distributional Learning / Nonparametric Bayes / Learning Theory / Grammar Learning |
研究実績の概要 |
本研究において、並列化の基礎となる計算機の構成を行った。 また、Nonparametric Bayesの手法には含まれないが、本研究における大きな目標であるDistributional Learningの実データへの効率的な利用にむけて、近年大きなインパクトを与えている深層学習のアルゴリズムと、形式文法の確率学習とのつながりを、Strictly Piecewise 言語の共導出に焦点をあてて、次のような観点から明らかにした。 Strictly Piecewise 言語とは、近年 Rogers と Heinz により導入された、複数の単純なオートマトンの積(共導出)に分解できる言語クラスで、記号列の中の長距離の依存関係を簡潔に記述することができる言語である。 n-gram における文字(または単語)の生成確率は 直前の 長さn の連続的な部分文字列に依存して与えられるが、確率的 SP-k 言語で定義される文字(または単語)の生成確率は、前に出てくる長さ k 個の不連続な部分文字列の全ての組み合わせに依存して与えられる。共導出に対する確率を考えると、例えば、様々な実際の言語に出てくる、音素の長距離の依存関係をうまく捉えることができることが知られている。例えば、ある自然言語では、文中において、sibilantに関する禁止ルールがあることが知られているが、それらを教師なしで学習することが可能である。しかし、複数の確率的オートマトンの積(共導出)という仕組みで生成確率が計算されるため、正確な最尤推定がまだ行われていなかったが、それを行う方法を新たに見いだした。また、ニューラルネット言語モデルとして見たとき、その階層を深くすることによって精度が良くなることを発見した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本年度の予定は、並列化の検討であったが、計算機およびソフトウェア環境は整えたものの、HPYPを用いたノンパラメトリックベイズの手法では一般的に、確率の計算においてハッシュやtrieを用いるため、GPGPUで並列化するために必要なベクトル演算の形に落とすことが難しく、実際にノンパラメトリックベイズの手法を効率的に並列化するアルゴリズムを考案することはまだできていない。また、形式言語(Strictly Piecewise 言語 )の学習において、ディープラーニングの手法と対応づけてそれを利用する方法についても、外部の研究会において提案は行っているものの、まだ論文の形にまとめていないため、まだ査読のある国際会議や論文誌での発表までに及んでいない。これについては来年度行う予定である。
|
今後の研究の推進方策 |
(k,l)-文脈依存確率文法の学習については、スライスサンプリングを導入し、より高速に計算する手法を考案し、実装を行う予定である。また、その並列化を行い、より規模の大きいデータに適用することを考えている。また、サンプリングの手法として、adaptive importance sampling という手法がある。これは、MHサンプリングのように、一定の確率で棄却することはせず、提案分布と実際の分布との比率に基づき重みを付けてサンプリングを行う。また、適応的に提案分布を変更していくことで、より有効なサンプルを得ることができるようにするものである。また、形式言語の学習に対する、深層学習の手法との関係の探究も、引き続き行ってゆく予定である。
|
次年度使用額が生じた理由 |
並列計算のための計算機環境の構築が遅れており、その予算を次年度繰越とした。また、研究成果の外部発表が滞ったため、国際会議での発表が想定よりも少なく、そのための費用がかからなかったため。
|
次年度使用額の使用計画 |
当初より予定している並列計算のための計算機およびソフトウェア環境の増強にかかる費用を、「物品費」より予定している。および、研究成果の国際会議への発表にかかる費用を、「旅費」および「その他」より予定している。またLDAPやNFSの構築など、ソフトウェア環境の構築においてかかる作業代として、人件費よりの支出を予定している。
|