2013 年度実績報告書

データ圧縮に基づく知識発見の理論と応用に関する研究

研究課題

研究課題/領域番号	23300051
研究機関	東北大学
研究代表者	篠原歩東北大学, 情報科学研究科, 教授 (00226151)
研究分担者	成澤和志東北大学, 情報科学研究科, 助教 (40583323)
研究期間 (年度)	2011-04-01 – 2015-03-31
キーワード	機械学習 / 人工知能 / データ圧縮 / 知識発見 / アルゴリズム
研究概要	文字列の多重集合であるマルチトラック文字列を対象として，トラック間の置換を許した順列パターン照合問題について，近似を許した照合を効率よく行うためのデータ構造を定義し，その効果を実証する実験を行った．また文字列の基本的な繰り返し構造に関して，左右に延長不可能な極大の繰り返し構造である「連」についての研究をさらに押し進め，連を多く含む文字列を生成する準同型写像の探索を行った．その結果，連の個数に関しては，これまでに知られている最良の下界と厳密に一致する下界を与える文字列を生成する，より簡潔な準同型写像を見つけ出すことができた．さらに，連の指数和の最大数については，既知のものよりも真によい下界を与える準同型写像を見つけ出すことができた．また，接尾辞集合に対する決定性有限オートマトン(DFA)の最小無矛盾問題の計算量を解析した．DFA の最小無矛盾問題は，入力例に矛盾しない状態数最小のDFA を見つける問題であり，計算学習理論において学習可能性と深く関連している．既存研究において，一般の入力に対する困難性は知られていたが，本研究では，対象を接頭辞集合，すなわち入力のすべての文字列がある文字列の接尾辞になっている場合に限定したとしてもやはりNP困難であり，また近似精度を保証した多項式時間アルゴリズムを構築することも難しいことを証明した．さらに，強化学習の枠組みにおいて，ある学習領域で得られた知見を類似した他の学習領域に適用する転移学習に関して，サンプル量の削減が原理的に可能であることを証明し，またそれを裏付ける実験結果を得た．ゲームＡＩに関しては，２人型の完全情報ゲームである三並べを拡張した一般化三並べにおいて，一手における石の数を増やしたときのゲームの勝敗を解析する一連の結果を得た．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究は，知識発見の原理の究明と実働化を目指して，特にデータ圧縮の技術との関連に着目しながら理論と応用の両面から研究を展開していくものである．理論面では，上述の通り，データ圧縮の重要な要素となる繰り返し構造について，最も基本的な文字列としての性質に関する連の最大数と指数和に関する進展があった．また機械学習の理論において重要な最小無矛盾問題やサンプル量の解析に関する進展があった．一方，応用面に関しては，申請書に記載しているとおり，ゲームＡＩやロボット制御に関する実問題への取り組みにも力をいれている．ＥＴロボコンにおいて，東北地区大会，そしてチャンピオンシップ大会それぞれにおいて優秀な成績を残すことができた．以上のことから，おおむね順調に進展していると自己評価している．
今後の研究の推進方策	おおむね順調に研究が進展してきたので，それぞれの項目について当初の計画に沿って研究を進めながら，最終年度としての総括を行う予定である．まず，マルチトラック文字列の照合問題に関して，近似を許した照合が可能になったので，これを実データに関して適用することで，その有用性を実証していく予定である．一方，文字列の繰り返し構造である連について，これまで主に下界を更新することに注力してきたが，その中で得られた知見をもとに，上界の証明にも取り組む．そのためには組み合わせ論を駆使した数学的な議論と，それを補佐する大規模な計算機実験が必要であるので，それぞれに精力的に取り組む．またその際，文字列の両端が繋がった円環文字列を題材とした連を考慮することで，左端・右端の「例外処理」を考慮する必要がなくなるため，より見通しのよい議論ができるものと見込んでいる．また，機械学習に関しては，質問による厳密学習の枠組みを見直して，あらたな概念クラスについての学習可能性と不可能性の境目の解明を目指す．特に，ブール関数の学習可能性について，既存の結果を整理しながら，新たな進展を目指す．応用面に関しても，今年度までと同様に，それぞれの具体的な問題に対して取り組み，そこで得られる知見を理論解析にフィードバックさせることで相補的なさらなる進展を目指す．

研究成果
(12件)

すべてその他

すべて学会発表 (12件)

[学会発表] On the hardness of approximating the minimum consistent DFA from prefix samples
- 著者名/発表者名
  Kaori Ueno, Shinichi Shimozono, Kazuyuki Narisawa, Ayumi Shinohara
- 学会等名
  ICALP 2013 Satellite Workshop on Learning Theory and ComplexityLearning Theory and Complexity
- 発表場所
  ラトビア大学，ラトビア
[学会発表] Detecting Regularities on Grammar-Compressed Strings
- 著者名/発表者名
  Tomohiro I, Wataru Matsubara, Kouji Shimohira, Shunsuke Inenaga, Hideo Bannai, Masayuki Takeda, Kazuyuki Narisawa, Ayumi Shinohar
- 学会等名
  38th International Symposium on Mathematical Foundations of Computer Science 2013
- 発表場所
  オーストリア科学技術研究所，オーストリア
[学会発表] On Morphisms Generating Run-Rich Strings
- 著者名/発表者名
  Kazuhiko Kusano, Kazuyuki Narisawa, Ayumi Shinohara
- 学会等名
  The Prague Stringology Conference 2013
- 発表場所
  プラハ工科大学，チェコ
[学会発表] Bounded Occurrence Edit Distance: A New Metric for String Similarity Joins with Edit Distance Constraints
- 著者名/発表者名
  Tomoki Komatsu, Ryosuke Okuta, Kazuyuki Narisawa, Ayumi Shinohara
- 学会等名
  40th International Conference on Current Trends in Theory and Practice of Computer Science
- 発表場所
  ノビー・スモコベック，スロバキア
[学会発表] Reducing Sample Complexity in Reinforcement Learning by Transferring Transition and Reward Probabilities
- 著者名/発表者名
  Kouta Oguni, Kazuyuki Narisawa, Ayumi Shinohara
- 学会等名
  6th International Conference on Agents and Artificial Intelligence
- 発表場所
  アンジェ，フランス
[学会発表] Efficient Algorithm and Coding for Higher-Order Compression
- 著者名/発表者名
  Kazuya Yaguchi, Naoki Kobayashi, Ayumi Shinohara
- 学会等名
  Data Compression Conference 2014
- 発表場所
  ソルトレイクシティー，アメリカ合衆国
[学会発表] 文字列に含まれる連の最大指数和の解析～n=57までの厳密値と新たな下界2.03696の発見
- 著者名/発表者名
  草野一彦，奥田遼介，成澤和志，篠原歩
- 学会等名
  電子情報通信学会コンピュテーション研究会
- 発表場所
  神戸大学
[学会発表] マルチトラックデータ上の近似順列パターン照合と索引構造
- 著者名/発表者名
  大田裕之，桂敬史，成澤和志，篠原歩
- 学会等名
  電子情報通信学会コンピュテーション研究会
- 発表場所
  神戸大学
[学会発表] 一般化三並べの拡張：一手p石
- 著者名/発表者名
  ディプタラマ，成澤和志，篠原歩
- 学会等名
  第18回ゲームプログラミングワークショップ2013
- 発表場所
  箱根セミナーハウス
[学会発表] 高階圧縮の高速化と効率の良い符号化
- 著者名/発表者名
  矢口和也，小林直樹，篠原　歩
- 学会等名
  電子情報通信学会コンピュテーション研究会
- 発表場所
  名古屋工業大学
[学会発表] 状態遷移確率と報酬確率の転移による強化学習のサンプル量削減
- 著者名/発表者名
  小國晃太，成澤和志，篠原歩
- 学会等名
  第16回情報論的学習理論ワークショップ
- 発表場所
  東京工業大学蔵前会館
[学会発表] 接頭辞集合に対する決定性有限オートマトンの最小無矛盾問題について
- 著者名/発表者名
  上埜かおり，下薗真一，成澤和志，篠原歩
- 学会等名
  電子情報通信学会コンピュテーション研究会
- 発表場所
  沖縄産業支援センター

2013 年度 実績報告書

データ圧縮に基づく知識発見の理論と応用に関する研究

研究代表者

篠原 歩 東北大学, 情報科学研究科, 教授 (00226151)

現在までの達成度 (区分)

理由

研究成果

[学会発表] On the hardness of approximating the minimum consistent DFA from prefix samples

著者名/発表者名

学会等名

発表場所

[学会発表] Detecting Regularities on Grammar-Compressed Strings

著者名/発表者名

学会等名

発表場所

[学会発表] On Morphisms Generating Run-Rich Strings

著者名/発表者名

学会等名

発表場所

[学会発表] Bounded Occurrence Edit Distance: A New Metric for String Similarity Joins with Edit Distance Constraints

著者名/発表者名

学会等名

発表場所

[学会発表] Reducing Sample Complexity in Reinforcement Learning by Transferring Transition and Reward Probabilities

著者名/発表者名

学会等名

発表場所

[学会発表] Efficient Algorithm and Coding for Higher-Order Compression

著者名/発表者名

学会等名

発表場所

[学会発表] 文字列に含まれる連の最大指数和の解析～n=57までの厳密値と新たな下界2.03696の発見

著者名/発表者名

学会等名

発表場所

[学会発表] マルチトラックデータ上の近似順列パターン照合と索引構造

著者名/発表者名

学会等名

発表場所

[学会発表] 一般化三並べの拡張：一手p石

著者名/発表者名

学会等名

発表場所

[学会発表] 高階圧縮の高速化と効率の良い符号化

著者名/発表者名

学会等名

発表場所

[学会発表] 状態遷移確率と報酬確率の転移による強化学習のサンプル量削減

著者名/発表者名

学会等名

発表場所

[学会発表] 接頭辞集合に対する決定性有限オートマトンの最小無矛盾問題について

著者名/発表者名

学会等名

発表場所

2013 年度実績報告書

篠原歩東北大学, 情報科学研究科, 教授 (00226151)