Project/Area Number |
21K11758
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60010:Theory of informatics-related
|
Research Institution | Hokkai-Gakuen University |
Principal Investigator |
喜田 拓也 北海学園大学, 工学部, 教授 (70343316)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | 大規模データ / 整数の符号化 / データストリーム / パターン頻度計測 / フィルタリング技術 / 透過的データ圧縮法 / 文法圧縮 / 高階圧縮 / 圧縮パターン照合 / 圧縮データ利活用 |
Outline of Research at the Start |
本研究の目的は,圧縮されたデータに対して統計および知識処理を効率よく行う圧縮処理体系の基盤を築くことである.ここで「効率よい」とは,三つの観点(圧縮率,計算量,データ活用の利便性)において優れていることである.これまで,データ活用の観点から,テキストデータの圧縮データに対する検索処理や部分系列の頻度計測などは議論されている.一方で,表データやログデータのような数値を多く含む構造化データに対する,データ圧縮を積極的に用いたデータ活用の方法についてはほとんど議論されていない.本研究の特色は,そのようなデータに対して三つの観点において共に優れたデータ圧縮処理基盤の構築を目指す点にある.
|
Outline of Annual Research Achievements |
本研究の目的は,圧縮されたデータに対して統計および知識処理を効率よく行う圧縮処理体系の基盤を築くことである.ここで「効率よい」とは,次の三つの観点において優れていることである.第一には,データをどれだけコンパクトに表現できるかという圧縮率の観点である.第二には,処理時間とメモリ消費量をどれだけ抑えられるかという計算量の観点である.第三には,圧縮後のデータ自体が,後の情報検索やデータ解析の際にどのくらい利用しやすいかというデータ活用の観点である. これまで,データ活用の観点から,非定型の文字列データに対する圧縮データ上でのキーワード検索や部分系列の頻度計測などは議論されてきた.一方で,表データやログデータのように数値データを多く含み構造化されたデータに対して,データ圧縮を積極的に用いたデータ活用方法についてほとんど議論されていない. 本年度は,これまで得られた知見を基に,数値データの圧縮表現に関する調査を開始した.数値データの基本は整数であり、整数に対してコンパクトに符号化する手法がいくつか知られている。特に、0に近い比較的小さな整数が多く並ぶデータに対して短い符号を割り当てるイライアス符号が古くから知られている。この他、FraenkelとKleinらにより1996年に提案されたフィボナッチ符号がある。フィボナッチ符号はイライアス符号より圧縮率に優れているが、圧縮に時間がかかりすぎるため実用的とは考えられなかった。今回、実装実験を行った結果、フィボナッチ符号の復号の速度は、他の符号と同等以上の性能があることが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度までの研究の遅れはあるものの、昨年度は研究調査に一定の進展が見られた。現在、これまでの研究成果を論文として取りまとめ、学会等で発表を行うことを予定している。
|
Strategy for Future Research Activity |
昨年度に引き続き,当初の研究計画調書で挙げた各項目について研究・開発を進める.特に、昨年度の成果を踏まえて、次の項目Cに注力して研究開発を推し進める。 C.圧縮後のデータを活用する処理技術の開発: 圧縮データ上での数値データに対する基本的な統計処理やデータ抽出処理を行うアルゴリズムの開発を行う.
|