研究課題/領域番号 |
21K11758
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60010:情報学基礎論関連
|
研究機関 | 北海学園大学 |
研究代表者 |
喜田 拓也 北海学園大学, 工学部, 教授 (70343316)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
|
キーワード | 大規模データ / 整数の符号化 / データストリーム / パターン頻度計測 / フィルタリング技術 / 透過的データ圧縮法 / 文法圧縮 / 高階圧縮 / 圧縮パターン照合 / 圧縮データ利活用 |
研究開始時の研究の概要 |
本研究の目的は,圧縮されたデータに対して統計および知識処理を効率よく行う圧縮処理体系の基盤を築くことである.ここで「効率よい」とは,三つの観点(圧縮率,計算量,データ活用の利便性)において優れていることである.これまで,データ活用の観点から,テキストデータの圧縮データに対する検索処理や部分系列の頻度計測などは議論されている.一方で,表データやログデータのような数値を多く含む構造化データに対する,データ圧縮を積極的に用いたデータ活用の方法についてはほとんど議論されていない.本研究の特色は,そのようなデータに対して三つの観点において共に優れたデータ圧縮処理基盤の構築を目指す点にある.
|
研究実績の概要 |
本研究の目的は,圧縮されたデータに対して統計および知識処理を効率よく行う圧縮処理体系の基盤を築くことである.ここで「効率よい」とは,次の三つの観点において優れていることである.第一には,データをどれだけコンパクトに表現できるかという圧縮率の観点である.第二には,処理時間とメモリ消費量をどれだけ抑えられるかという計算量の観点である.第三には,圧縮後のデータ自体が,後の情報検索やデータ解析の際にどのくらい利用しやすいかというデータ活用の観点である. これまで,データ活用の観点から,非定型の文字列データに対する圧縮データ上でのキーワード検索や部分系列の頻度計測などは議論されてきた.一方で,表データやログデータのように数値データを多く含み構造化されたデータに対して,データ圧縮を積極的に用いたデータ活用方法についてほとんど議論されていない. 本年度は,これまで得られた知見を基に,数値データの圧縮表現に関する調査を開始した.数値データの基本は整数であり、整数に対してコンパクトに符号化する手法がいくつか知られている。特に、0に近い比較的小さな整数が多く並ぶデータに対して短い符号を割り当てるイライアス符号が古くから知られている。この他、FraenkelとKleinらにより1996年に提案されたフィボナッチ符号がある。フィボナッチ符号はイライアス符号より圧縮率に優れているが、圧縮に時間がかかりすぎるため実用的とは考えられなかった。今回、実装実験を行った結果、フィボナッチ符号の復号の速度は、他の符号と同等以上の性能があることが分かった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度までの研究の遅れはあるものの、昨年度は研究調査に一定の進展が見られた。現在、これまでの研究成果を論文として取りまとめ、学会等で発表を行うことを予定している。
|
今後の研究の推進方策 |
昨年度に引き続き,当初の研究計画調書で挙げた各項目について研究・開発を進める.特に、昨年度の成果を踏まえて、次の項目Cに注力して研究開発を推し進める。 C.圧縮後のデータを活用する処理技術の開発: 圧縮データ上での数値データに対する基本的な統計処理やデータ抽出処理を行うアルゴリズムの開発を行う.
|