• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

Distributional学習に対するノンパラメトリックベイズの適用と応用

Research Project

Project/Area Number 26730123
Research InstitutionTokyo University of Technology

Principal Investigator

柴田 千尋  東京工科大学, コンピュータサイエンス学部, 助教 (00633299)

Project Period (FY) 2014-04-01 – 2018-03-31
KeywordsDistributional Learning / Nonparametric Bayes / Learning Theory / Grammar Learning
Outline of Annual Research Achievements

本研究において、並列化の基礎となる計算機の構成を行った。
また、Nonparametric Bayesの手法には含まれないが、本研究における大きな目標であるDistributional Learningの実データへの効率的な利用にむけて、近年大きなインパクトを与えている深層学習のアルゴリズムと、形式文法の確率学習とのつながりを、Strictly Piecewise 言語の共導出に焦点をあてて、次のような観点から明らかにした。
Strictly Piecewise 言語とは、近年 Rogers と Heinz により導入された、複数の単純なオートマトンの積(共導出)に分解できる言語クラスで、記号列の中の長距離の依存関係を簡潔に記述することができる言語である。
n-gram における文字(または単語)の生成確率は 直前の 長さn の連続的な部分文字列に依存して与えられるが、確率的 SP-k 言語で定義される文字(または単語)の生成確率は、前に出てくる長さ k 個の不連続な部分文字列の全ての組み合わせに依存して与えられる。共導出に対する確率を考えると、例えば、様々な実際の言語に出てくる、音素の長距離の依存関係をうまく捉えることができることが知られている。例えば、ある自然言語では、文中において、sibilantに関する禁止ルールがあることが知られているが、それらを教師なしで学習することが可能である。しかし、複数の確率的オートマトンの積(共導出)という仕組みで生成確率が計算されるため、正確な最尤推定がまだ行われていなかったが、それを行う方法を新たに見いだした。また、ニューラルネット言語モデルとして見たとき、その階層を深くすることによって精度が良くなることを発見した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

本年度の予定は、並列化の検討であったが、計算機およびソフトウェア環境は整えたものの、HPYPを用いたノンパラメトリックベイズの手法では一般的に、確率の計算においてハッシュやtrieを用いるため、GPGPUで並列化するために必要なベクトル演算の形に落とすことが難しく、実際にノンパラメトリックベイズの手法を効率的に並列化するアルゴリズムを考案することはまだできていない。また、形式言語(Strictly Piecewise 言語 )の学習において、ディープラーニングの手法と対応づけてそれを利用する方法についても、外部の研究会において提案は行っているものの、まだ論文の形にまとめていないため、まだ査読のある国際会議や論文誌での発表までに及んでいない。これについては来年度行う予定である。

Strategy for Future Research Activity

(k,l)-文脈依存確率文法の学習については、スライスサンプリングを導入し、より高速に計算する手法を考案し、実装を行う予定である。また、その並列化を行い、より規模の大きいデータに適用することを考えている。また、サンプリングの手法として、adaptive importance sampling という手法がある。これは、MHサンプリングのように、一定の確率で棄却することはせず、提案分布と実際の分布との比率に基づき重みを付けてサンプリングを行う。また、適応的に提案分布を変更していくことで、より有効なサンプルを得ることができるようにするものである。また、形式言語の学習に対する、深層学習の手法との関係の探究も、引き続き行ってゆく予定である。

Causes of Carryover

並列計算のための計算機環境の構築が遅れており、その予算を次年度繰越とした。また、研究成果の外部発表が滞ったため、国際会議での発表が想定よりも少なく、そのための費用がかからなかったため。

Expenditure Plan for Carryover Budget

当初より予定している並列計算のための計算機およびソフトウェア環境の増強にかかる費用を、「物品費」より予定している。および、研究成果の国際会議への発表にかかる費用を、「旅費」および「その他」より予定している。またLDAPやNFSの構築など、ソフトウェア環境の構築においてかかる作業代として、人件費よりの支出を予定している。

  • Research Products

    (7 results)

All 2016 2015

All Journal Article (3 results) (of which Peer Reviewed: 3 results,  Acknowledgement Compliant: 2 results) Presentation (4 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Probabilistic learnability of context-free grammars with basic distributional properties from positive examples2016

    • Author(s)
      Chihiro Shibata and Ryo Yoshinaka
    • Journal Title

      Theoretical computer science, Elsevier

      Volume: 620 Pages: 46-72

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] On Efficiency of Semantic Relation Extraction through Low-Dimensional Distributed Representations for Substrings2015

    • Author(s)
      Jin Zhan, Chihiro Shibata, Kazuya Tago
    • Journal Title

      in proceedings of the 2015 IEEE International Symposium on Smart Data (with the 17th IEEE International Conference on High Performance Computing and Communications)

      Volume: 0 Pages: 1749-1754

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Relation Classification through Substring Representations using Nonlinear Classifiers2015

    • Author(s)
      Zhan Jin, Chihiro Shibata, Jingtao Sun and Kazuya Tago
    • Journal Title

      In proceedings of the 2015 International Symposium on Nonlinear Theory & its Applications

      Volume: 0 Pages: 1-8

    • Peer Reviewed
  • [Presentation] ニューラルネット言語モデルによる Twitter 上の発言からの5因子モデルに基づく性格分析2016

    • Author(s)
      塚野駿,柴田千尋,政倉祐子,田胡和哉
    • Organizer
      情報処理学会 第78回全国大会
    • Place of Presentation
      慶応義塾大学矢上キャンパス(神奈川県横浜市)
    • Year and Date
      2016-03-10 – 2016-03-12
  • [Presentation] 深層強化学習ための環境シミュレーションと自律制御ロボットの連携2016

    • Author(s)
      宮島優太郎,李天琦,田胡和哉,柴田千尋
    • Organizer
      情報処理学会 第78回全国大会
    • Place of Presentation
      慶応義塾大学矢上キャンパス(神奈川県横浜市)
    • Year and Date
      2016-03-10 – 2016-03-12
  • [Presentation] Relation Classification through Substring Representations using Nonlinear Classifiers2015

    • Author(s)
      Zhan Jin, Chihiro Shibata, Jingtao Sun and Kazuya Tago
    • Organizer
      2015 International Symposium on Nonlinear Theory & its Applications
    • Place of Presentation
      香港市立大学(中国・香港)
    • Year and Date
      2015-12-02 – 2015-12-04
    • Int'l Joint Research
  • [Presentation] On Efficiency of Semantic Relation Extraction through Low-Dimensional Distributed Representations for Substrings2015

    • Author(s)
      Jin Zhan, Chihiro Shibata, Kazuya Tago
    • Organizer
      IEEE International Symposium on Smart Data in conjunction with the 17th IEEE International Conference on High Performance Computing and Communications
    • Place of Presentation
      Hilton Newark Airport (USA, New York)
    • Year and Date
      2015-08-24 – 2015-08-26
    • Int'l Joint Research

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi