研究課題/領域番号 |
21K11758
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60010:情報学基礎論関連
|
研究機関 | 北海学園大学 |
研究代表者 |
喜田 拓也 北海学園大学, 工学部, 教授 (70343316)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
|
キーワード | 大規模データ / データストリーム / パターン頻度計測 / フィルタリング技術 / 透過的データ圧縮法 / 文法圧縮 / 高階圧縮 / 圧縮パターン照合 / 圧縮データ利活用 |
研究開始時の研究の概要 |
本研究の目的は,圧縮されたデータに対して統計および知識処理を効率よく行う圧縮処理体系の基盤を築くことである.ここで「効率よい」とは,三つの観点(圧縮率,計算量,データ活用の利便性)において優れていることである.これまで,データ活用の観点から,テキストデータの圧縮データに対する検索処理や部分系列の頻度計測などは議論されている.一方で,表データやログデータのような数値を多く含む構造化データに対する,データ圧縮を積極的に用いたデータ活用の方法についてはほとんど議論されていない.本研究の特色は,そのようなデータに対して三つの観点において共に優れたデータ圧縮処理基盤の構築を目指す点にある.
|
研究実績の概要 |
本研究の目的は,圧縮されたデータに対して統計および知識処理を効率よく行う圧縮処理体系の基盤を築くことである.ここで「効率よい」とは,次の三つの観点において優れていることである.第一には,データをどれだけコンパクトに表現できるかという圧縮率の観点である.第二には,処理時間とメモリ消費量をどれだけ抑えられるかという計算量の観点である.第三には,圧縮後のデータ自体が,後の情報検索やデータ解析の際にどのくらい利用しやすいかというデータ活用の観点である. これまで,データ活用の観点から,非定型の文字列データに対する圧縮データ上でのキーワード検索や部分系列の頻度計測などは議論されてきた.一方で,表データやログデータのように数値データを多く含み構造化されたデータに対して,データ圧縮を積極的に用いたデータ活用方法についてほとんど議論されていない. 申請者らはこれまでに,データストリームに対する頻出アイテム系列発見のための省メモリアルゴリズムについて開発を行い,第177回アルゴリズム研究会にて発表を行っている.この技術は,絶えず流れ込むデータ(データストリーム)中に頻出する部分系列を発見するためのものである.センサーログなどの数値データはデータストリーム型であり,これに対して頻出するパターンを任意の長さで検出することができる.本年度は,これまで得られた知見を基に,数値データの圧縮表現に関する調査を開始した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
前年度と比べてコロナ過の影響は減じたので,他の研究者らとの交流は頻度は少ないながらも再開することができた.しかしながら,本年度は,大学入試にかかる役職業務に従事したことや,新カリキュラム開始による新規授業の立ち上げなどに多くの時間を取られ,十分に研究時間を確保することができなかった.
|
今後の研究の推進方策 |
昨年度に引き続き,これまでの研究成果を基に,当初の研究計画調書で挙げた以下の項目について研究・開発を進める. A.文字列と数値が混在したデータの圧縮手法の開発: データの構造を自動的あるいは半自動的に抽出し,文字列部分は文法圧縮を,数値部分は圧縮後に式評価が可能な符号化形式を用いるような圧縮方式を確立する. また,直近に提案したデータストリームに対する頻度計測アルゴリズムの成果を基に,以下の技術に関する研究・開発に着手する. C.圧縮後のデータを活用する処理技術の開発: 圧縮データ上での数値データに対する基本的な統計処理やデータ抽出処理を行うアルゴリズムの開発を行う.
|