2021 Fiscal Year Research-status Report
Research on fundamental compression technology to promote the utilization of compressed data
Project/Area Number |
21K11758
|
Research Institution | Hokkai-Gakuen University |
Principal Investigator |
喜田 拓也 北海学園大学, 工学部, 教授 (70343316)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | 大規模データ / データストリーム / パターン頻度計測 / フィルタリング技術 / 透過的データ圧縮法 |
Outline of Annual Research Achievements |
本研究の目的は,圧縮されたデータに対して統計および知識処理を効率よく行う圧縮処理体系の基盤を築くことである.ここで「効率よい」とは,次の三つの観点において優れていることである.第一には,データをどれだけコンパクトに表現できるかという圧縮率の観点である.第二には,処理時間とメモリ消費量をどれだけ抑えられるかという計算量の観点である.第三には,圧縮後のデータ自体が,後の情報検索やデータ解析の際にどのくらい利用しやすいかというデータ活用の観点である. これまで,データ活用の観点から,非定型の文字列データに対する圧縮データ上でのキーワード検索や部分系列の頻度計測などは議論されてきた.一方で,表データやログデータのように数値データを多く含み構造化されたデータに対して,データ圧縮を積極的に用いたデータ活用方法についてほとんど議論されていない. 申請者らはこれまでに,データストリームに対する頻出アイテム系列発見のための省メモリアルゴリズムについて開発を行い,第177回アルゴリズム研究会にて発表を行っている.この技術は,絶えず流れ込むデータ(データストリーム)中に頻出する部分系列を発見するためのものである.センサーログなどの数値データはデータストリーム型であり,これに対して頻出するパターンを任意の長さで検出することができる.本年度は,上記のアルゴリズムの改善について検討するとともに,英文誌向けの論文としてまとめた.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究代表者が2020年度に大学を異動したと同時期にコロナ禍による環境の激変が生じた.そのため,オンライン講義等の常にはない業務対応に時間を多くとられた.また,結果として他の研究者らとの交流が激減したため,活発な議論を行うことができなかった.
|
Strategy for Future Research Activity |
これまでの研究成果を基に,当初の研究計画調書で挙げた以下の項目について研究・開発を進める. A.文字列と数値が混在したデータの圧縮手法の開発: データの構造を自動的あるいは半自動的に抽出し,文字列部分は文法圧縮を,数値部分は圧縮後に式評価が可能な符号化形式を用いるような圧縮方式を確立する. また,直近に提案したデータストリームに対する頻度計測アルゴリズムの成果を基に,以下の技術に関する研究・開発に着手する. C.圧縮後のデータを活用する処理技術の開発: 圧縮データ上での数値データに対する基本的な統計処理やデータ抽出処理を行うアルゴリズムの開発を行う.
|