研究課題/領域番号 |
23680016
|
研究機関 | 九州工業大学 |
研究代表者 |
坂本 比呂志 九州工業大学, 情報工学研究院, 教授 (50315123)
|
キーワード | データ圧縮 / パターン発見 / 文法圧縮 / 簡潔データ構造 |
研究概要 |
あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮によって巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を顕在化する圧縮マイニングを実現することが目標である.23年度は,申請者らがこれまでに開発した大規模データ圧縮アルゴリズムをストリームデータに対するオンラインアルゴリズムに拡張したが,さらに同時に,このアルゴリズムの性能を飛躍的に高めるための着想を得た.しかし,このアイディアを実現するためにはかなりの時間を要するため,予定していた実験や論文の投稿を一時中断し,当該年度はこの問題に集中して取り組むこととなった.したがって,23年度に予定していたほとんどの研究費を次年度に繰り越しし,23年度は,改良型アルゴリズムのプロトタイプ作成や共同研究者との打ち合わせを中心に行った.その結果,入力データ全体をメモリに読み込むことなく大規模データの効率的な圧縮が可能となり,この理論を足がかりに,テキスト中のパターンの関係を保存しながら圧縮する技術によってパターンマイニングに応用することが可能となった.この基本アルゴリズムによって,GB 超~TB クラスの巨大テキスト同士の直接比較を次年度以降に実現する.そして,これまでは歯が立たなかった超大規模テキストから知識を掘り起こしを目指す.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の達成目標は,簡単に俯瞰できない巨大なデータを取り扱うための基盤技術をデータ圧縮によって実現することである.この研究には,申請者らの研究グループが作り上げた大規模データのための文法圧縮アルゴリズムが基本アルゴリズムとして利用されている.文法圧縮は従来の圧縮法と比較して使用するメモリ量が小さいことで知られている.申請者らの研究では,この性質を最大限に生かしたアルゴリズムの大規模化を行った.この研究の過程で,23年度では,当初予想していた以上の性能を発揮する極めて重要な改良を可能とする着想を得た.この着想を実現できれば,アルゴリズムが処理できるデータ量が数十倍以上に高まる.このような観点からは,当該年度の目標は十分に達成できていると考えられる.しかし,この理論を実現し,それを実験によって実証するためには時間的に余裕がなく,その部分の研究は翌年以降に持ち越しとなった.また,この部分の見通しについては,今年度に作成したアルゴリズムのプロトタイプの予備実験によって予定通り実現できるという手応えを得ている.以上のことから,23年度の研究については,おおむね順調に進展していると言える.
|
今後の研究の推進方策 |
本研究では最終的に巨大データからのパターン発見を目標としている.パターン発見では,データの中からある統計情報を取り出すことが重要である.例えば,あるキーワードが高頻度で出ている場合,そのキーワードは何らかの意味でそのデータを代表している可能性が高い.しかし,そのキーワード自身の長さが非常に短い場合,自ずと頻度が高くなり,単語の重要性は低くなる.このように,データから重要なキーワードを発見する場合,キーワードの出現頻度とキーワードの長さのバランスが重要となる.この問題に対して,自然言語処理では,データに関する事前知識を仮定する手法がとられることがある.しかし,DNAシークエンスのようにそのような仮定はしばしば困難である場合も多い.そこで申請者らは,データに対する事前知識を必要としない手法によって,データからのパターン発見を実現しようとしている.その一つが,申請者らが注目している文法圧縮である.文法圧縮は,道のデータに対してあたかもそれが自然言語であるかのように構文木を構築することで,データを圧縮する.ここでデータを圧縮するということは,構文木の中に同じような部分木をなるべく多く作って,それらをまとめて束ねてしまうことに対応する.この処理によって,同じ単語やフレーズがまとめられるため,まとめられた数が多いほど高圧縮となる.このことを見方を変えると,データを高圧縮するということと高頻度のフレーズを発見することが対応することになる.アルゴリズムはこの部分を注意深く探すことで高頻度でかつ長いフレーズを発見する.次年度以降では,この探索部分の効率化と,曖昧なパターンの発見を可能とする研究を行う.
|