研究概要 |
近年,自動測定技術の発展により,センサーデータや通信記録などの連続データストリームに対する大規模データ処理が重要になっている.こうしたストリーム型のデータに対してパターン照合を行う場合,単純な文字列の照合とは異なる困難さがある.第一に,入力データ系列の各要素は,検索パターンの各要素に対してある程度の誤差を許して一致していればよく,厳密に一致する性質を利用した文字列照合の技術がそのままでは適用できない.第二に,照合処理の過程においてリアルタイム性が要求され,また過去のデータに対してアクセスすることが困難であることが挙げられる.本研究では,このような連続データストリームに対する高速・高度なパターン照合技術の確立を目指している. これまでに,巨大なストリームデータを蓄えるための検索可能なデータ圧縮技術の開発に取り組み,その結果,検索効率を保ちつつ圧縮率の高い新規な圧縮法(STVF符号)の開発に成功した.STVF符号は,刈り込み接尾辞木を利用して圧縮効率の良い辞書木を構築しつつ,データの部分系列に対して固定長の符号語を割り当てる独特なデータ圧縮手法である. 今年度は,圧縮率を高めるために辞書木を学習によって強化する手法を提案し,実際に既存の最も良いと考えられている圧縮ツールであるgzip並みに圧縮率を高めることに成功した.また,STVF符号上での実際の情報検索のパフォーマンスについて総合的な試験を行った.
|