2013 Fiscal Year Research-status Report
統計的学習問題に対する情報源符号化アルゴリズムの応用に関する研究
Project/Area Number |
25730023
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | Waseda University |
Principal Investigator |
石田 崇 早稲田大学, メディアネットワークセンター, 助教 (70409639)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 機械学習 / 情報源符号化 |
Research Abstract |
本研究は,情報源符号化(データ圧縮)アルゴリズムを統計的学習問題に応用することにより,理論的な性能が保証された効率の良い学習アルゴリズムを構築することを目的としている.本年度は,(1)情報源モデルクラスの解析とエントロピー・レートの導出,(2)情報源モデルに対する効率的な情報源符号化アルゴリズムの構成の2点について検討を行った. (1)情報源モデルクラスの解析とエントロピー・レートの導出:情報源符号化(データ圧縮)問題において,情報源モデルのエントロピー・レートは理論的な圧縮限界を与えるという意味で工学的に非常に重要な指標である.一方,自然言語処理分野でもエントロピー・レートは言語モデルの指標として重要な意味を持っている.言語構造を考慮した情報源モデルは,一般的に複雑な構造を有しており,エントロピー・レートは陽に導出されていない.本年度はこれまでの研究を継続し,エントロピー・レートの理論的な解析を行った.エントロピー・レート存在するクラスについての検討や,語頭条件とよばれる制約条件を満たさないモデルに対してエントロピー・レートの上界や下界を導出することについて取り組み,その性質を明らかにするための解析を行った. (2)情報源モデルに対する効率的な情報源符号化アルゴリズムの構成:情報源符号化アルゴリズムは情報源の確率構造を逐次的に推定するメカニズムであり,より実データに即した拡大された情報源モデルに対する情報源符号化アルゴリズムは,一般的な機械学習問題へも応用が可能である.決定木やモデル選択問題に対して情報源符号化アルゴリズムを構成して実データに適用し,学習性能の評価を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
上記(1)において,拡張したモデルに対する理論解析を行っているが,モデルの構造が複雑になることで解析が困難となり,計算機による数値評価を援用しながらの実験的な評価検証を伴う解析を行っているため,達成度に遅れがある. (2)では実データと想定しているモデルとの間にかい離があると考えられ,対象とする実データに対して,構成したアルゴリズムが良い性能を示すまでに至っていない.
|
Strategy for Future Research Activity |
次年度以降は,本年度に引き続き(1)の情報源モデルの性質の解析と(2)の情報源モデルに対する効率的なアルゴリズムの構成および性能評価を,数値実験と理論的な解析によって実施する.さらに,対象とする問題の実データについて,データの特性を反映した情報源モデルの拡張の検討を進め,そのモデルクラスに対する効率的なアルゴリズムの構成を行う.
|