2011 年度実績報告書

圧縮マイニング：超大規模テキストに埋もれている知識の顕在化

研究課題

研究課題/領域番号	23680016
研究機関	九州工業大学
研究代表者	坂本比呂志九州工業大学, 情報工学研究院, 教授 (50315123)
キーワード	データ圧縮 / パターン発見 / 文法圧縮 / 簡潔データ構造
研究概要	あまりにも巨大なテキストは，読むことができないデータとほぼ同じであり，このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である．本研究は，データ圧縮によって巨大テキストの俯瞰を可能にし，気づかれずに埋もれている知識を顕在化する圧縮マイニングを実現することが目標である．23年度は，申請者らがこれまでに開発した大規模データ圧縮アルゴリズムをストリームデータに対するオンラインアルゴリズムに拡張したが，さらに同時に，このアルゴリズムの性能を飛躍的に高めるための着想を得た．しかし，このアイディアを実現するためにはかなりの時間を要するため，予定していた実験や論文の投稿を一時中断し，当該年度はこの問題に集中して取り組むこととなった．したがって，23年度に予定していたほとんどの研究費を次年度に繰り越しし，23年度は，改良型アルゴリズムのプロトタイプ作成や共同研究者との打ち合わせを中心に行った．その結果，入力データ全体をメモリに読み込むことなく大規模データの効率的な圧縮が可能となり，この理論を足がかりに，テキスト中のパターンの関係を保存しながら圧縮する技術によってパターンマイニングに応用することが可能となった．この基本アルゴリズムによって，GB 超～TB クラスの巨大テキスト同士の直接比較を次年度以降に実現する．そして，これまでは歯が立たなかった超大規模テキストから知識を掘り起こしを目指す．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究の達成目標は，簡単に俯瞰できない巨大なデータを取り扱うための基盤技術をデータ圧縮によって実現することである．この研究には，申請者らの研究グループが作り上げた大規模データのための文法圧縮アルゴリズムが基本アルゴリズムとして利用されている．文法圧縮は従来の圧縮法と比較して使用するメモリ量が小さいことで知られている．申請者らの研究では，この性質を最大限に生かしたアルゴリズムの大規模化を行った．この研究の過程で，23年度では，当初予想していた以上の性能を発揮する極めて重要な改良を可能とする着想を得た．この着想を実現できれば，アルゴリズムが処理できるデータ量が数十倍以上に高まる．このような観点からは，当該年度の目標は十分に達成できていると考えられる．しかし，この理論を実現し，それを実験によって実証するためには時間的に余裕がなく，その部分の研究は翌年以降に持ち越しとなった．また，この部分の見通しについては，今年度に作成したアルゴリズムのプロトタイプの予備実験によって予定通り実現できるという手応えを得ている．以上のことから，23年度の研究については，おおむね順調に進展していると言える．
今後の研究の推進方策	本研究では最終的に巨大データからのパターン発見を目標としている．パターン発見では，データの中からある統計情報を取り出すことが重要である．例えば，あるキーワードが高頻度で出ている場合，そのキーワードは何らかの意味でそのデータを代表している可能性が高い．しかし，そのキーワード自身の長さが非常に短い場合，自ずと頻度が高くなり，単語の重要性は低くなる．このように，データから重要なキーワードを発見する場合，キーワードの出現頻度とキーワードの長さのバランスが重要となる．この問題に対して，自然言語処理では，データに関する事前知識を仮定する手法がとられることがある．しかし，DNAシークエンスのようにそのような仮定はしばしば困難である場合も多い．そこで申請者らは，データに対する事前知識を必要としない手法によって，データからのパターン発見を実現しようとしている．その一つが，申請者らが注目している文法圧縮である．文法圧縮は，道のデータに対してあたかもそれが自然言語であるかのように構文木を構築することで，データを圧縮する．ここでデータを圧縮するということは，構文木の中に同じような部分木をなるべく多く作って，それらをまとめて束ねてしまうことに対応する．この処理によって，同じ単語やフレーズがまとめられるため，まとめられた数が多いほど高圧縮となる．このことを見方を変えると，データを高圧縮するということと高頻度のフレーズを発見することが対応することになる．アルゴリズムはこの部分を注意深く探すことで高頻度でかつ長いフレーズを発見する．次年度以降では，この探索部分の効率化と，曖昧なパターンの発見を可能とする研究を行う．

研究成果
(4件)

すべて 2012 2011 その他

すべて雑誌論文 (3件) (うち査読あり 3件) 備考 (1件)

[雑誌論文] Extracting research communities from bibliographic data2012
- 著者名/発表者名
  Y.Nakamura
- 雑誌名
  
  KES Journal
  
  巻: 16(1) ページ: 25-34
- DOI
  10.3233/KES-2012-0230
- 査読あり
[雑誌論文] ESP-Index: A Compressed Index Based on Edit-Sensitive Parsing2011
- 著者名/発表者名
  S.Maruyama
- 雑誌名
  
  Lecture Notes in Computer Science
  
  巻: 7024 ページ: 398-409
- DOI
  10.1007/978-3-642-24583-1_39
- 査読あり
[雑誌論文] Scalable Detection of Frequent Substrings by Grammar-Based Compression2011
- 著者名/発表者名
  M.Nakahara
- 雑誌名
  
  Lecture Notes in Computer Science
  
  巻: 6926 ページ: 236-246
- DOI
  10.1007/978-3-642-24477-3_20
- 査読あり
[備考] 研究室HP
- URL
  http://www.donald.ai.kyutech.ac.jp/hiroshi_modx/

2011 年度 実績報告書

圧縮マイニング：超大規模テキストに埋もれている知識の顕在化

研究代表者

坂本 比呂志 九州工業大学, 情報工学研究院, 教授 (50315123)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Extracting research communities from bibliographic data2012

著者名/発表者名

雑誌名

DOI

[雑誌論文] ESP-Index: A Compressed Index Based on Edit-Sensitive Parsing2011

著者名/発表者名

雑誌名

DOI

[雑誌論文] Scalable Detection of Frequent Substrings by Grammar-Based Compression2011

著者名/発表者名

雑誌名

DOI

[備考] 研究室HP

URL

2011 年度実績報告書

坂本比呂志九州工業大学, 情報工学研究院, 教授 (50315123)